SpeechGPT2

全端到端的类人语音对话模型

感知并表达情感
提供多种风格的语音响应，如说唱、戏剧、机器人、有趣和低语等
使用超低比特率语音编解码器（750bps）
多输入多输出语言模型（MIMO-LM）
生成一秒钟的语音需要25个自回归解码步骤
超过10万小时的学术和野外语音数据预训练
高质量的多轮对话语音数据

产品详情

SpeechGPT2是由复旦大学计算机科学学院开发的端到端语音对话语言模型，能够感知并表达情感，并根据上下文和人类指令以多种风格提供合适的语音响应。该模型采用超低比特率语音编解码器（750bps），模拟语义和声学信息，并通过多输入多输出语言模型（MIMO-LM）进行初始化。目前，SpeechGPT2还是一个基于轮次的对话系统，正在开发全双工实时版本，并已取得一些有希望的进展。尽管受限于计算和数据资源，SpeechGPT2在语音理解的噪声鲁棒性和语音生成的音质稳定性方面仍有不足，计划未来开源技术报告、代码和模型权重。

SpeechGPT2

产品详情

相关项目

知了zKnown

MBox AI Meet

Klee

Kerqu.Ai