看啥推荐读物
专栏名称: AITIME论道
AI TIME是一群关注人工智能发展,并有思想情怀的青年学者创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,链接全球AI学者,以辩论的形式探讨人工智能领域的未来。
今天看啥  ›  专栏  ›  AITIME论道

Big Model Weekly | 第19期

AITIME论道  · 公众号  ·  · 2024-04-27 09:50
点击蓝字关注我们AI TIME欢迎每一位AI爱好者的加入!1.MMInA: Benchmarking Multihop Multimodal Internet Agents该研究提出了 MMInA,一个多跳和多模式基准,用于评估具有网站体现的自主代理在完成复杂用户任务时的性能。现有的基准测试未能在现实且不断发展的环境中评估它们,以适应跨网站的体现任务。为了回答这个问题,该研究提出了 MMInA,这是一个多跳和多模式基准,用于评估具有组合性互联网任务的体现代理,具有几个吸引人的特性:1)不断发展的真实世界多模式网站。该基准独特地在不断发展的真实世界网站上运行,确保了高度的现实感和适用性于自然用户任务。该数据包括 1,050 个人工编写的任务,涵盖购物和旅行等各种领域,每个任务需要代理从网页中自主提取多模式信息作为观察结果;2)多跳网页浏览。 该数据集包含自然组合的任务,需要 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照