语音/音频处理学术速递[3.25]

语音之家 · 公众号 · · 2024-03-25 14:53

今日论文合集：cs.SD语音7篇，eess.AS音频处理7篇。本文经arXiv每日学术速递授权转载微信公众号：arXiv_Dailycs.SD语音【1】 XLAVS-R: Cross-Lingual Audio-Visual Speech Representation Learning for Noise-Robust Speech Perception标题：XLAVS—R：跨语言音视频语音表示学习的噪声鲁棒语音感知链接：https://arxiv.org/abs/2403.14402作者：HyoJung Han,Mohamed Anwar,Juan Pino,Wei-Ning Hsu,Marine Carpuat,Bowen Shi,Changhan Wang摘要：语音识别和翻译系统在现实环境中经常出现的噪声输入上表现不佳。用视觉信号增强这些系统有可能提高对噪声的鲁棒性。但是，视听数据的数量有限，而且语种少于纯视听资源。为了解决这一差距，我们提出了XLAVS-R，一个跨语言的视听语音表示模型，用于100多种语言的噪声鲁棒语音识别和翻译。它旨在通过建立在仅音频的多语言预训练之上并简化现有的预训练方案，最大限度地发 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博