今天看啥  ›  专栏  ›  腾讯

开会or婚礼?全球最难的看图理解,腾讯AI得了第一

腾讯  · 公众号  · 科技公司  · 2020-12-01 11:47
请回答这道选择题:手捧玫瑰的女子,绅士风度的男子,停靠路边的马车,他们在做什么? 正确答案是D。这道题不是出给人类的,而是出给AI的行为理解题。它来自全球最难的图像理解题库之一——VCR(VisualCommonsense Reasoning)。类似读心术,希望AI像人一样,懂得图中人在正在做什么。11月19日,腾讯微视视频理解团队在VCR打榜竞赛中,做了近27万道这样的选择题。结果,他们提出了单模型BLENDer (BimodaL ENcoDer),在三个阶段的PK中,准确率达到了81.6%、86.4%、70.8%,一举超过谷歌等行业,甚至高于一些多模型的准确率,取得最高分,夺得冠军。对于你来说,这题很简单;但是,对AI,太南了。说白了,AI很缺“某个动机导致某种行为”的逻辑关联数据。BLENDer拿着百万部电影 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照