
Qwen2-Audio
阿里云推出的大型音频语言模型
- 支持自由的语音交互,无需文本输入
- 能够提供音频和文本指令进行音频分析
- 在多个标准基准测试中表现优异,如ASR、S2TT、SER等
- 即将发布两个模型系列:Qwen2-Audio和Qwen2-Audio-Chat
- 三阶段训练过程的架构概览
- 提供所有评估脚本以复现结果
产品详情
Qwen2-Audio是由阿里云提出的大型音频语言模型,能够接受各种音频信号输入,并根据语音指令进行音频分析或直接文本回复。该模型支持两种不同的音频交互模式:语音聊天和音频分析。它在13个标准基准测试中表现出色,包括自动语音识别、语音到文本翻译、语音情感识别等。