
Sketch2Sound
通过时间变化信号和声音模仿生成可控音频的模型
0
- - 从声音模仿中合成任意声音:Sketch2Sound能够根据声音模仿或参考声音形状合成任意声音。
- - 可解释的时间变化控制信号:模型使用响度、亮度和音高作为控制信号,以生成音频。
- - 文本提示支持:Sketch2Sound能够根据文本提示生成符合语义的声音。
- - 轻量级实现:相比于其他方法,Sketch2Sound只需要较少的微调步骤和线性层。
- - 灵活的控制信号处理:通过在训练期间对控制信号应用随机中值滤波,Sketch2Sound能够使用具有不同时间特异性的控制信号进行提示。
- - 保持音频质量:与仅使用文本的基线相比,Sketch2Sound在遵循输入控制的同时保持了音频质量。
- - 声音艺术家的工具:Sketch2Sound为声音艺术家提供了一种结合文本提示和声音模仿的新工具。
产品详情
Sketch2Sound是一个生成音频的模型,能够从一组可解释的时间变化控制信号(响度、亮度、音高)以及文本提示中创建高质量的声音。该模型能够在任何文本到音频的潜在扩散变换器(DiT)上实现,并且只需要40k步的微调和每个控制一个单独的线性层,使其比现有的方法如ControlNet更加轻量级。Sketch2Sound的主要优点包括从声音模仿中合成任意声音的能力,以及在保持输入文本提示和音频质量的同时,遵循输入控制的大致意图。这使得声音艺术家能够结合文本提示的语义灵活性和声音手势或声音模仿的表现力和精确度来创造声音。