Qwen2-Audio

Qwen2-Audio

阿里云推出的大型音频语言模型

支持自由的语音交互，无需文本输入
能够提供音频和文本指令进行音频分析
在多个标准基准测试中表现优异，如ASR、S2TT、SER等
即将发布两个模型系列：Qwen2-Audio和Qwen2-Audio-Chat
三阶段训练过程的架构概览
提供所有评估脚本以复现结果

产品详情

Qwen2-Audio是由阿里云提出的大型音频语言模型，能够接受各种音频信号输入，并根据语音指令进行音频分析或直接文本回复。该模型支持两种不同的音频交互模式：语音聊天和音频分析。它在13个标准基准测试中表现出色，包括自动语音识别、语音到文本翻译、语音情感识别等。

相关项目

Udio v1.5

Udio v1.5

问问小宇宙

问问小宇宙

Speech to Note

Speech to Note

SpeechGPT2

SpeechGPT2