今天看啥  ›  专栏  ›  雷峰网

搜狗ICASSP论文:基于模态注意力的端到端音视觉语音识别

雷峰网  · 公众号  · 科技媒体  · 2019-05-17 19:15
▲点击上方 雷锋网 关注0dB噪声情况下,相比纯语音识别错误率相对下降36% ~ 文 | camel 在近期举办的语音顶会 ICASSP 2019上,搜狗联合清华天工研究院发表了一篇有意思的论文:基于模态注意力的端到端音视觉语音识别。简单来说,即引入「基于模态注意力的端到端」方法,有机地融合了语音和唇部动作信息,显著提高了嘈杂环境中语音识别的效果。论文链接:https://cmsworkshops.com/ICASSP2019/Papers/ViewPapers.asp?PaperNum=4649我们知道,安静环境下语音识别的正确率目前已经可以达到98%以上,商业应用基本没太大问题。但嘈杂环境(例如会厅、地铁环境)中语音识别却难以获得理想的效果。以0dB的噪声环境(噪声与信号强度相同)为例,DeepMind和牛津大学在CVPR2017上联合发表的研 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照