ViTMatte

ViTMatte

基于预训练的纯视觉变换器提升图像抠图

混合注意力机制与卷积颈部的结合，优化性能与计算平衡
细节捕获模块，通过简单轻量级卷积补充细节信息
多种预训练策略，提升模型泛化能力
简洁的架构设计，易于理解和应用
灵活的推理策略，适应不同场景需求
在常用图像抠图基准测试中达到最先进的性能

产品详情

ViTMatte是一个基于预训练纯视觉变换器（Plain Vision Transformers, ViTs）的图像抠图系统。它利用混合注意力机制和卷积颈部来优化性能与计算之间的平衡，并引入了细节捕获模块以补充抠图所需的细节信息。ViTMatte是首个通过简洁的适配释放ViT在图像抠图领域潜力的工作，继承了ViT在预训练策略、简洁的架构设计和灵活的推理策略等方面的优势。在Composition-1k和Distinctions-646这两个最常用的图像抠图基准测试中，ViTMatte达到了最先进的性能，并以较大优势超越了先前的工作。

产品详情

相关项目

CrossPrism for MacOS

Kerqu.Ai

Free AI Image Extender

image-matting