ViTMatte

ViTMatte

基于预训练的纯视觉变换器提升图像抠图

  • 混合注意力机制与卷积颈部的结合,优化性能与计算平衡
  • 细节捕获模块,通过简单轻量级卷积补充细节信息
  • 多种预训练策略,提升模型泛化能力
  • 简洁的架构设计,易于理解和应用
  • 灵活的推理策略,适应不同场景需求
  • 在常用图像抠图基准测试中达到最先进的性能

产品详情

ViTMatte是一个基于预训练纯视觉变换器(Plain Vision Transformers, ViTs)的图像抠图系统。它利用混合注意力机制和卷积颈部来优化性能与计算之间的平衡,并引入了细节捕获模块以补充抠图所需的细节信息。ViTMatte是首个通过简洁的适配释放ViT在图像抠图领域潜力的工作,继承了ViT在预训练策略、简洁的架构设计和灵活的推理策略等方面的优势。在Composition-1k和Distinctions-646这两个最常用的图像抠图基准测试中,ViTMatte达到了最先进的性能,并以较大优势超越了先前的工作。