机器之心原创作者:思利用自然语言检索百万视频,人物、场景、事件都不能放过,这就是既困难又吸引了众多研究者的视频检索任务。紧随图像建模技术的提升,机器学习已经不再满足图像识别与检索了,它的「进阶版」视频理解通常不仅需要理解图像内容,同时还需要理解图像之间的联系。而视频目前是最形象与生动的信息载体,如果机器学习能理解视频,那么很多应用都会变得智能化。例如这篇文章介绍的视频检索,我们只需要输入「Find shots of a person lying on a bed」这样的查询语句,模型就能在海量视频库中检索到对应的视频片段。这种任务的难度可比基于预输入标签的视频搜索难多了,因为视频片段的检索只能依靠视频内容。近日,阿里安全图灵实验室视频理
………………………………