注册
登录
专栏名称:
量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
我也要提交微信公众号
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
雪球动态RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
爱可可-爱生活
·
【solidtime - ...
·
昨天
新智元
·
突发!OpenAI七年元老、安全副总裁Lil ...
·
昨天
宝玉xp
·
以前我们经常谈“XX思维”,就是总结某门学科 ...
·
3 天前
黄建同学
·
之前聊过 Claude Computer ...
·
3 天前
宝玉xp
·
OpenAI真舍得花钱,买了 ...
·
3 天前
今天看啥
›
专栏
›
量子位
突破短视频局限!MMBench 团队构建中长视频开放问答评测基准,全面评估多模态大模型视频理解能力
量子位
·
公众号
·
AI
· 2024-10-30 12:57
文章预览
新宇 投稿 凹非寺 量子位 | 公众号 QbitAI GPT-4o 四月发布会掀起了视频理解的热潮,而开源领军者Qwen2也对视频毫不手软,在各个视频评测基准上狠狠秀了一把肌肉。 但当前的大部分评测基准仍然具有以下几个缺陷: 多注重于短视频 ,视频长度或视频镜头数不足,难以考察到模型的长时序理解能力; 对模型的考察局限在部分较为简单的任务, 更多细粒度的能力未被大部分基准所涉及到 ; 现有的基准仍可以仅凭单帧图像以获取较高的分数,说明 问题和画面的时序性关联不强 ; 对开放性问题的评估仍旧采用较旧的GPT-3.5 ,打分和人类偏好有较大的偏差且并不准确,容易高估模型性能。 针对这些问题,有没有对应的基准能够较好解决这些问题呢? 在最新的NeurIPS D 2024中由浙江大学联合上海人工智能实验室,上海交通大学和香港中文大学提出的MMBench- ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
爱可可-爱生活
·
【solidtime - 现代开源时间追踪应用:专为自由职业者和-20241109144627
昨天
新智元
·
突发!OpenAI七年元老、安全副总裁Lilian Weng官宣离职!北大本科,决定专心写博客
昨天
宝玉xp
·
以前我们经常谈“XX思维”,就是总结某门学科、某个行业或者某个维-20241107095223
3 天前
黄建同学
·
之前聊过 Claude Computer Use 可以突破验证码-20241107092933
3 天前
宝玉xp
·
OpenAI真舍得花钱,买了 chat.com 这个域名,会跳转-20241107032658
3 天前
朱启兵宏观研究
·
【中银证券:6月通胀点评】关注暑期消费和房地产企稳
4 月前
AF智慧城市网
·
世界防溺水日|这些智能防溺救援设备你知道吗?
3 月前