
SenseVoice
多语种语音理解模型,提供高精度语音识别与情感识别。
- 自动语音识别(ASR):支持超过50种语言的高精度语音识别。
- 语音语言识别(LID):能够识别并区分不同的语言。
- 语音情感识别(SER):在测试数据上超越当前最佳模型的情感识别效果。
- 音频事件检测(AED):支持检测多种人机交互事件,如背景音乐、掌声、笑声等。
- 高效的推理速度:SenseVoice-Small模型处理10秒音频仅需70毫秒。
- 便捷的微调支持:提供微调脚本和策略,便于用户根据业务场景调整模型。
- 服务部署支持:支持多并发请求,客户端语言多样,易于集成到不同平台。
产品详情
SenseVoice是一个包含自动语音识别(ASR)、语音语言识别(LID)、语音情感识别(SER)和音频事件检测(AED)等多语音理解能力的语音基础模型。它专注于高精度多语种语音识别、语音情感识别和音频事件检测,支持超过50种语言,识别性能超越Whisper模型。模型采用非自回归端到端框架,推理延迟极低,是实时语音处理的理想选择。