专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
黄建同学  ·  AI 超级框 ... ·  18 小时前  
黄建同学  ·  万相 Wan2.1 VACE ... ·  昨天  
黄建同学  ·  OpenAI 通过 API ... ·  昨天  
今天看啥  ›  专栏  ›  机器之心

DeepSeek-R1、o1都低于10%,人类给AI的「最后考试」来了,贡献者名单长达两页

机器之心  · 公众号  · AI  · 2025-02-08 10:22
    

文章预览

机器之心报道 编辑:Panda 随着 AI 大模型在一个又一个的任务上达到乃至超越人类水平,人类文明似乎已经进入了与 AI 共生的时代。  为了跟踪 AI 的发展进度,适当的基准必不可少。但现在,由于 AI 发展的速度实在太快,已有的基准已经开始不够用了。比如在常用的基准 MMLU 上,当今前沿的 LLM 已经能达到超过 90% 的准确度了!这就限制了对前沿 LLM 能力的精确度量能力。 基于此现状,Center for AI Safety(AI 安全中心)与 Scale AI 联合打造一个名字相当吸引眼球的新基准: Humanity's Last Exam ,即「 人类的最后考试 」,简称 HLE 。 论文标题:Humanity’s Last Exam 论文地址:https://arxiv.org/pdf/2501.14249 项目地址:https://lastexam.ai 从名字也能看出来,其背后必然有一个雄心勃勃的团队。据介绍,HLE 是一个「位于人类知识前沿的多模态基准」,其设计目标是成为「 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览