专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
目录
今天看啥  ›  专栏  ›  AINLP

McEval:超大规模多语言代码评测

AINLP  · 公众号  ·  · 2024-06-14 18:35
    

文章预览

为了更加全面的探究大语言模型的代码能力,该工作提出了一个涵盖40种编程语言的大规模多语言多任务代码评测基准(McEval),包含了16000个测试样本。评测结果表明开源模型与GPT-4相比,在多语言的编程能力上仍然存在较大差距,绝大多数开源模型甚至无法超越GPT-3.5。此外测试也表明开源模型中如Codestral,DeepSeek-Coder, CodeQwen以及一些衍生模型也展现出优异的多语言能力。该基准的提出对推动多语言代码评测具有重要意义。 原文链接: https://arxiv.org/abs/2406.07436  代码链接: https://github.com/MCEVAL/McEval 榜单: https://mceval.github.io/leaderboard.html Part.1 360°全方位代码能力评估  摆脱HumanEval / MBPP 近年来,各种大语言模型层出不穷,这些大语言模型都在公开的测试基准如HumanEval, MBPP等代码榜单上展现出优异的代码能力,许多模型甚至都取得了与GPT-4相近的表现 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览