专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

DeepSeek-R1、o1都在及格线挣扎!字节开源全新知识推理测评集,覆盖285个学科

量子位  · 公众号  · AI  · 2025-03-04 12:51
    

文章预览

允中 发自 凹非寺 量子位 | 公众号 QbitAI 大模型刷榜 MMLU、屠榜 GPQA 的玩法一夜变天??? 要知道,过去几年,各种通用评测逐渐同质化,越来越难以评估模型真实能力。GPQA、MMLU-pro、MMLU等流行基准,各家模型出街时人手一份,但局限性也开始暴露,比如覆盖范围狭窄(通常不足 50 个学科),不含长尾知识;缺乏足够挑战性和区分度,比如 GPT-4o 在 MMLU-Pro 上准确率飙到 92.3%。 不过别慌,大模型通用知识推理评测“强化版”来了,堪称大模型评测里的“黄冈密卷”! 近日,字节跳动豆包大模型团队联合 M-A-P 开源社区,推出了全新评测基准 SuperGPQA 。 我们翻看论文,细品一番,足足 256 页。据了解,该评测搭建工作耗时半年,近百位学界学者及名校硕博、业界工程师参与标注。 研究团队构建了迄今为止最全面,覆盖 285 个研究生级学科、包含 26529 道 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览