专栏名称: 稀土掘金技术社区
掘金,一个帮助开发者成长的技术社区
目录
相关文章推荐
槽值  ·  替父母还债的年轻人 ·  19 小时前  
情侣ins头像  ·  情头 | ... ·  3 天前  
今天看啥  ›  专栏  ›  稀土掘金技术社区

给通义千问2.0做测评的10个权威测基准测评集

稀土掘金技术社区  · 公众号  ·  · 2023-12-28 10:36

文章预览

引言 在今年(2023)云栖大会上,阿里云正式发布千亿级参数大模型通义千问2.0。据现场介绍,在10个权威测评中,通义千问2.0综合性能超过GPT-3.5,正在加速追赶GPT-4。以下是通义千问在MMLU、C-Eval、GSM8K、HumanEval、MATH等10个主流Benchmark测评集上的表现: 上图可以看出通义千问2.0的得分整体超越META的Llama-2-70B,相比OpenAI的Chat-3.5是九胜一负,相比GPT-4则是四胜六负,与GPT-4的差距进一步缩小 (新闻来自新浪财经)。 那么问题来了,上图中Benchmark测评集分别是什么?侧重点在哪些方面? 基准测评集介绍 CMMLU CMMLU是针对中国背景下的大型语言模型的知识和推理能力的评测,由MBZUAI、上海交通大学、微软亚洲研究院共同推出,包含67个主题,专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU是一个涵盖自然科学、社会科学、工程和人文学科等多个学科 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览