Sana

Sana

高效率的高分辨率图像合成框架

0
  • - 深度压缩自编码器:与传统自编码器相比,Sana训练的自编码器可以将图像压缩32倍,有效减少潜在标记的数量。
  • - 线性DiT:将所有传统注意力机制替换为线性注意力,提高了高分辨率下的效率,同时不牺牲质量。
  • - 仅解码器文本编码器:使用现代仅解码器小型语言模型作为文本编码器,并通过复杂人类指令与上下文学习增强图像-文本对齐。
  • - 高效训练和采样:提出Flow-DPM-Solver以减少采样步骤,并通过高效的标题标记和选择加速收敛。
  • - 与现代大型扩散模型竞争:Sana-0.6B在性能上与Flux-12B等现代大型扩散模型相当,体积小20倍,吞吐量快100倍以上。
  • - 笔记本电脑GPU部署:Sana-0.6B可以在16GB笔记本电脑GPU上部署,生成1024×1024分辨率图像的时间少于1秒。
  • - 开源解决方案:Sana致力于提供快速、开源的AI技术,解决实际挑战。

产品详情

Sana是一个文本到图像的框架,能够高效生成高达4096×4096分辨率的图像。它以极快的速度合成高分辨率、高质量的图像,并保持强大的文本-图像对齐,可以部署在笔记本电脑GPU上。Sana的核心设计包括深度压缩自编码器、线性扩散变换器(DiT)、仅解码器的小型语言模型作为文本编码器,以及高效的训练和采样策略。Sana-0.6B与现代大型扩散模型相比,体积小20倍,测量吞吐量快100倍以上。此外,Sana-0.6B可以部署在16GB笔记本电脑GPU上,生成1024×1024分辨率图像的时间少于1秒。Sana使得低成本的内容创作成为可能。