支持40种东方语言和22种汉语方言!清华大学开源自动语音识别模型Dolphin

GitHubStore · 公众号 · · 2025-04-03 09:13

文章预览

项目简介 Dolphin 是由 Dataocean AI 和清华大学合作开发的多语言、多任务语音识别模型。它支持东亚、南亚、东南亚和中东的 40 种东方语言，同时支持 22 种汉语方言。该模型在超过 210,000 小时的数据上进行训练，包括 DataoceanAI 的专有数据集和开源数据集。该模型可以执行语音识别、语音活动检测（VAD）、分割和语言识别（LID）。 small版本与Whisper large v3相比，平均WER降低54.1%，模型大小只有Whisper large v3的约1/4 除了语音识别，还能进行语音活动检测、音频分割以及语言识别目前开源了两个基础版本，一个base版，一个small版方法 Dolphin 主要遵循 Whisper 和 OWSM 的创新设计方法。采用基于 E-Branchformer 的编码器和基于标准 Transformer 的解码器的联合 CTC-Attention 架构。针对 ASR 的特定关注，引入了几个关键修改。Dolphin 不支持翻译任务，并消除了对先前文本及 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博