
ViTMatte
基于预训练的纯视觉变换器提升图像抠图
- 混合注意力机制与卷积颈部的结合,优化性能与计算平衡
- 细节捕获模块,通过简单轻量级卷积补充细节信息
- 多种预训练策略,提升模型泛化能力
- 简洁的架构设计,易于理解和应用
- 灵活的推理策略,适应不同场景需求
- 在常用图像抠图基准测试中达到最先进的性能
产品详情
ViTMatte是一个基于预训练纯视觉变换器(Plain Vision Transformers, ViTs)的图像抠图系统。它利用混合注意力机制和卷积颈部来优化性能与计算之间的平衡,并引入了细节捕获模块以补充抠图所需的细节信息。ViTMatte是首个通过简洁的适配释放ViT在图像抠图领域潜力的工作,继承了ViT在预训练策略、简洁的架构设计和灵活的推理策略等方面的优势。在Composition-1k和Distinctions-646这两个最常用的图像抠图基准测试中,ViTMatte达到了最先进的性能,并以较大优势超越了先前的工作。