
SpeechGPT2
全端到端的类人语音对话模型
- 感知并表达情感
- 提供多种风格的语音响应,如说唱、戏剧、机器人、有趣和低语等
- 使用超低比特率语音编解码器(750bps)
- 多输入多输出语言模型(MIMO-LM)
- 生成一秒钟的语音需要25个自回归解码步骤
- 超过10万小时的学术和野外语音数据预训练
- 高质量的多轮对话语音数据
产品详情
SpeechGPT2是由复旦大学计算机科学学院开发的端到端语音对话语言模型,能够感知并表达情感,并根据上下文和人类指令以多种风格提供合适的语音响应。该模型采用超低比特率语音编解码器(750bps),模拟语义和声学信息,并通过多输入多输出语言模型(MIMO-LM)进行初始化。目前,SpeechGPT2还是一个基于轮次的对话系统,正在开发全双工实时版本,并已取得一些有希望的进展。尽管受限于计算和数据资源,SpeechGPT2在语音理解的噪声鲁棒性和语音生成的音质稳定性方面仍有不足,计划未来开源技术报告、代码和模型权重。