蚂蚁多模态团队在视频多模态方向的技术探索

DataFunTalk · 公众号 · · 2024-05-15 13:00

主要观点总结

蚂蚁多模态认知团队在视频多模态检索领域取得了显著的研究成果，主要围绕提升视频文本语义检索效果和高效进行视频同源检索展开。通过视频-文本预训练、关注难样本和引入细粒度技术，显著提升了视频-文本语义检索效果；同时，团队自主研发了视频侵权检测方法，实现了85%的存储节省和18倍的检索加速，且提高了检索效果。此外，还分享了Q&A环节，回答了观众关于关键帧、视频特征提取、视频检索实时性等问题。团队诚邀对多模态和视频处理感兴趣的同学加入，共同推动相关工作。

关键观点总结

关键观点1: 提升视频-文本语义检索效果

通过视频-文本预训练、关注难样本和引入细粒度技术，提升了视频-文本语义检索效果。

关键观点2: 视频-视频同源检索应用

团队自主研发了视频侵权检测方法，实现了存储节省和检索加速，并提高了检索效果。

关键观点3: Q&A环节

回答了观众关于关键帧、视频特征提取、视频检索实时性等问题，并欢迎对多模态和视频处理感兴趣的同学加入。

文章预览

导读本文将分享蚂蚁多模态认知团队过去一年在视频多模态检索领域的研究成果。文章主要围绕如何提升视频文本语义检索效果，及如何高效地进行视频同源检索这两项研究工作展开。主要包括以下几大部分： 1. 概述 2. 视频-文本语义检索 3. 视频-视频同源搜索 4. 总结 5. Q 分享嘉宾｜郭清沛蚂蚁集团高级算法专家编辑整理｜张进东内容校对｜李瑶出品社区｜ DataFun 01 概述视频多模态检索在蚂蚁内部有着广泛的应用。视频多模态检索具体包括两个方向，一个是视频-文本的语义检索，另外一个是视频-视频的同源检索。视频-文本的语义检索方向旨在通过文本检索与其语义相近的视频，其检索文本未必在检索到的视频描述中直接出现，但检索视频的内容与检索文本需要保证语义相关。例如，在支付宝的搜索栏中，用户期望通过文 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博