Sana

Sana

高效率的高分辨率图像合成框架

- 深度压缩自编码器：与传统自编码器相比，Sana训练的自编码器可以将图像压缩32倍，有效减少潜在标记的数量。
- 线性DiT：将所有传统注意力机制替换为线性注意力，提高了高分辨率下的效率，同时不牺牲质量。
- 仅解码器文本编码器：使用现代仅解码器小型语言模型作为文本编码器，并通过复杂人类指令与上下文学习增强图像-文本对齐。
- 高效训练和采样：提出Flow-DPM-Solver以减少采样步骤，并通过高效的标题标记和选择加速收敛。
- 与现代大型扩散模型竞争：Sana-0.6B在性能上与Flux-12B等现代大型扩散模型相当，体积小20倍，吞吐量快100倍以上。
- 笔记本电脑GPU部署：Sana-0.6B可以在16GB笔记本电脑GPU上部署，生成1024×1024分辨率图像的时间少于1秒。
- 开源解决方案：Sana致力于提供快速、开源的AI技术，解决实际挑战。

产品详情

Sana是一个文本到图像的框架，能够高效生成高达4096×4096分辨率的图像。它以极快的速度合成高分辨率、高质量的图像，并保持强大的文本-图像对齐，可以部署在笔记本电脑GPU上。Sana的核心设计包括深度压缩自编码器、线性扩散变换器（DiT）、仅解码器的小型语言模型作为文本编码器，以及高效的训练和采样策略。Sana-0.6B与现代大型扩散模型相比，体积小20倍，测量吞吐量快100倍以上。此外，Sana-0.6B可以部署在16GB笔记本电脑GPU上，生成1024×1024分辨率图像的时间少于1秒。Sana使得低成本的内容创作成为可能。

产品详情

相关项目

CrossPrism for MacOS

Kerqu.Ai

Free AI Image Extender

image-matting