连接人工智能技术人才和产业人才的交流平台
今天看啥  ›  专栏  ›  机器学习研究组订阅

无需OpenAI数据,跻身代码大模型榜单!UIUC发布StarCoder-15B-Instruct

机器学习研究组订阅  · 公众号  · AI  · 2024-05-15 20:08
    

文章预览

在软件技术的前沿,UIUC张令明组携手BigCode组织的研究者,近日公布了StarCoder2-15B-Instruct代码大模型。 这一创新成果在代码生成任务取得了显著突破,成功超越CodeLlama-70B-Instruct,登上代码生成性能榜单之巅。 StarCoder2-15B-Instruct的独特之处在于其纯自对齐策略,整个训练流程公开透明,且完全自主可控。 该模型通过StarCoder2-15B生成数千个指令-响应对,直接对StarCoder-15B基座模型进行微调,无需依赖昂贵的人工标注数据,也无需从GPT4等商业大模型中获取数据,避免了潜在的版权问题。 在HumanEval测试中,StarCoder2-15B-Instruct以72.6%的Pass@1成绩脱颖而出,较CodeLlama-70B-Instruct的72.0%有所提升。 更为令人瞩目的是,在LiveCodeBench数据集的评估中,这一自对齐模型的表现甚至超越了基于GPT-4生成数据训练的同类模型。这一成果证明了,通过自身分布内的数据,大模型 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览