SenseVoice

多语种语音理解模型，提供高精度语音识别与情感识别。

自动语音识别(ASR)：支持超过50种语言的高精度语音识别。
语音语言识别(LID)：能够识别并区分不同的语言。
语音情感识别(SER)：在测试数据上超越当前最佳模型的情感识别效果。
音频事件检测(AED)：支持检测多种人机交互事件，如背景音乐、掌声、笑声等。
高效的推理速度：SenseVoice-Small模型处理10秒音频仅需70毫秒。
便捷的微调支持：提供微调脚本和策略，便于用户根据业务场景调整模型。
服务部署支持：支持多并发请求，客户端语言多样，易于集成到不同平台。

产品详情

SenseVoice是一个包含自动语音识别(ASR)、语音语言识别(LID)、语音情感识别(SER)和音频事件检测(AED)等多语音理解能力的语音基础模型。它专注于高精度多语种语音识别、语音情感识别和音频事件检测，支持超过50种语言，识别性能超越Whisper模型。模型采用非自回归端到端框架，推理延迟极低，是实时语音处理的理想选择。

SenseVoice

产品详情

相关项目

Udio v1.5

问问小宇宙

Speech to Note

SpeechGPT2