GenAU

音频生成与自动字幕生成模型

AutoCap：利用音频元数据提高字幕质量，达到83.2的CIDEr得分。
GenAu：基于FIT架构，使用1.25亿参数的可扩展变换器架构生成音频。
音频1D-VAE：从Mel-Spectrogram表示生成潜在序列。
Q-Former模块：将音频表示压缩为更少的token，提高字幕模型效率。
跨注意力层：在输入潜在和可学习的潜在token之间传递信息。
全局注意力层：使潜在token能够进行全局通信。
支持大规模音频-文本数据集的生成和训练。

产品详情

GenAU是一个由Snap Research开发的音频生成模型，它通过AutoCap自动字幕生成模型和GenAu音频生成架构，显著提升了音频生成的质量。它在生成环境声音和效果方面具有挑战性，特别是在数据稀缺和字幕质量不足的情况下。GenAU模型能够生成高质量的音频，并且在音频合成领域具有很大的潜力。

GenAU

产品详情

相关项目

Udio v1.5

问问小宇宙

Speech to Note

SpeechGPT2