给通义千问2.0做测评的10个权威测基准测评集

稀土掘金技术社区 · 公众号 · · 2023-12-28 10:36

文章预览

引言在今年(2023)云栖大会上，阿里云正式发布千亿级参数大模型通义千问2.0。据现场介绍，在10个权威测评中，通义千问2.0综合性能超过GPT-3.5，正在加速追赶GPT-4。以下是通义千问在MMLU、C-Eval、GSM8K、HumanEval、MATH等10个主流Benchmark测评集上的表现：上图可以看出通义千问2.0的得分整体超越META的Llama-2-70B，相比OpenAI的Chat-3.5是九胜一负，相比GPT-4则是四胜六负，与GPT-4的差距进一步缩小 (新闻来自新浪财经)。那么问题来了，上图中Benchmark测评集分别是什么？侧重点在哪些方面？基准测评集介绍 CMMLU CMMLU是针对中国背景下的大型语言模型的知识和推理能力的评测，由MBZUAI、上海交通大学、微软亚洲研究院共同推出，包含67个主题，专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU是一个涵盖自然科学、社会科学、工程和人文学科等多个学科 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

槽值 · 替父母还债的年轻人

19 小时前

情侣ins头像 · 虞书欣 | 开始时捱一些苦栽种绝处的花

昨天

情侣ins头像 · 情头 | 这组可爱情侣头像𝙒𝙚𝘾𝙝𝙖𝙩真的不错~

3 天前

918云南交通台 · 云南玉溪市华宁县发生一起交通事故致3死，省安委会挂牌督办

1 月前

电影截图录 · “小舅，我们是什么关系？”霍霆东优雅的搂住她的肩膀，温润而笑，“-20241006053350

3 周前