GenAU

GenAU

音频生成与自动字幕生成模型

  • AutoCap:利用音频元数据提高字幕质量,达到83.2的CIDEr得分。
  • GenAu:基于FIT架构,使用1.25亿参数的可扩展变换器架构生成音频。
  • 音频1D-VAE:从Mel-Spectrogram表示生成潜在序列。
  • Q-Former模块:将音频表示压缩为更少的token,提高字幕模型效率。
  • 跨注意力层:在输入潜在和可学习的潜在token之间传递信息。
  • 全局注意力层:使潜在token能够进行全局通信。
  • 支持大规模音频-文本数据集的生成和训练。

产品详情

GenAU是一个由Snap Research开发的音频生成模型,它通过AutoCap自动字幕生成模型和GenAu音频生成架构,显著提升了音频生成的质量。它在生成环境声音和效果方面具有挑战性,特别是在数据稀缺和字幕质量不足的情况下。GenAU模型能够生成高质量的音频,并且在音频合成领域具有很大的潜力。