Dia：两个本科生打造的开源AI语音模型，复刻NotebookLM

Renee 创业随笔 · 公众号 · · 2025-05-04 07:20

文章预览

今天看了一款名为 Dia 的开源AI语音模型。这款模型由两位位于韩国的本科生通过 Google 的 TPU Research Cloud 免费计算资源训练而成，参数规模达 16亿，能生成类似播客的对话音频，甚至具备克隆人声的能力。 Github 的 Star 长势喜人~ 🚀功能亮点从脚本生成对话音频，支持指定说话人语气可插入非语言化元素：咳嗽、笑声、停顿等，增强自然感提供声纹克隆功能，可根据参考音频生成指定人物声音本地运行要求低，仅需 10GB VRAM 📈技术与对比 Dia 在播客风格音频生成方面的表现，被 TechCrunch 认为可与 NotebookLM、ElevenLabs 等商用产品媲美，其语音自然度、交互性甚至略胜一筹。与微软的多语言 TTS 模型相比，Dia 的优势在于开源、低门槛定制，而微软的优势则是商用级部署的成熟度与多语言支持。同时，Dia 的灵活脚本控制能力，也让人联想到 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博