专栏名称: 专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
今天看啥  ›  专栏  ›  专知

【牛津大学博士论文】使用多模态深度学习的视频理解

专知  · 公众号  ·  · 2021-10-15 17:00
我们对世界的体验是多模态的,然而深度学习网络传统上是为图像、音频片段或文本等单模态输入而设计和训练的。在这篇论文中,我们提出了策略来利用多模态信息(以视觉、文本、语音和非语音音频的形式)来自动理解以人为中心的视频。本文提出的关键思想是 (i)跨模态监督,(ii)自监督表示学习和(iii)模态融合。在跨模态监督中,来自监督丰富的模态的数据标签被用于学习另一个缺乏监督的目标模态的表示,从而避免了在目标模态域中昂贵的手动注释的需要。这有效地利用了模态之间的冗余或重叠信息。我们将展现该技术在三个不同任务中的效用; 首先,我们使用人脸识别和视觉主动说话人检测来管理一个被称为VoxCeleb的大规模人类语音视听数据集,对其进行训练,



文章无法展示全部,请购买VIP后 使用网页访问内容 或者 使用第三方RSS订阅工具访问内容





今天看啥 - 让阅读更高品质
本文地址:http://www.jintiankansha.me/t/GPQ9E7k8gX