今天看啥  ›  专栏  ›  Renee 创业随笔

Dia:两个本科生打造的开源AI语音模型,复刻NotebookLM

Renee 创业随笔  · 公众号  ·  · 2025-05-04 07:20
    

文章预览

今天看了一款名为  Dia  的开源AI语音模型。这款模型由两位位于韩国的本科生通过 Google 的 TPU Research Cloud 免费计算资源训练而成,参数规模达  16亿 ,能生成类似播客的对话音频,甚至具备克隆人声的能力。 Github 的 Star 长势喜人~ 🚀功能亮点 从脚本生成对话音频 ,支持指定说话人语气 可插入  非语言化元素 :咳嗽、笑声、停顿等,增强自然感 提供  声纹克隆功能 ,可根据参考音频生成指定人物声音 本地运行要求低,仅需  10GB VRAM 📈技术与对比 Dia 在播客风格音频生成方面的表现,被 TechCrunch 认为可与 NotebookLM、ElevenLabs 等商用产品媲美,其语音自然度、交互性甚至略胜一筹。与微软的多语言 TTS 模型相比,Dia 的优势在于开源、低门槛定制,而微软的优势则是商用级部署的成熟度与多语言支持。 同时,Dia 的灵活脚本控制能力,也让人联想到 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览