DeepSeek-R1、o1都在及格线挣扎！字节开源全新知识推理测评集，覆盖285个学科

量子位 · 公众号 · AI · 2025-03-04 12:51

文章预览

允中发自凹非寺量子位 | 公众号 QbitAI 大模型刷榜 MMLU、屠榜 GPQA 的玩法一夜变天？？？要知道，过去几年，各种通用评测逐渐同质化，越来越难以评估模型真实能力。GPQA、MMLU-pro、MMLU等流行基准，各家模型出街时人手一份，但局限性也开始暴露，比如覆盖范围狭窄（通常不足 50 个学科），不含长尾知识；缺乏足够挑战性和区分度，比如 GPT-4o 在 MMLU-Pro 上准确率飙到 92.3%。不过别慌，大模型通用知识推理评测“强化版”来了，堪称大模型评测里的“黄冈密卷”！近日，字节跳动豆包大模型团队联合 M-A-P 开源社区，推出了全新评测基准 SuperGPQA 。我们翻看论文，细品一番，足足 256 页。据了解，该评测搭建工作耗时半年，近百位学界学者及名校硕博、业界工程师参与标注。研究团队构建了迄今为止最全面，覆盖 285 个研究生级学科、包含 26529 道 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博