看啥推荐读物
专栏名称: AI科技评论
「AI科技评论」是国内顶尖人工智能媒体和产业服务平台,专注全球 AI 业界、学术和开发三大方向的深度报道。
今天看啥  ›  专栏  ›  AI科技评论

谷歌再获语音识别新进展:利用序列转导来实现多人语音识别和说话人分类

AI科技评论  · 公众号  · AI  · 2019-08-24 20:10
准确识别「谁·在何时·说了啥」作者 | MrBear编辑 |  Pita  从 WaveNet 到 Tacotron,再到 RNN-T,谷歌一直站在语音人工智能技术的最前沿。近日,他们又将多人语音识别和说话人分类问题融合在了同一个网络模型中,在模型性能上取得了重大的突破。对于自动理解人类音频的任务来说,识别「谁说了什么」(或称「说话人分类」)是一个关键的步骤。例如,在一段医生和患者的对话中,医生问:「你按时服用心脏病药物了吗?」患者回答道:「Yes」。这与医生反问患者「Yes?」的意义是有本质区别的。传统的说话人分类(speaker diarization,SD)系统有两个步骤。在第一步中,系统将检测声谱中的变化,从而确定在一段对话中,说话人什么时候改变了;在第二步中,系统将识 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照