今天看啥  ›  专栏  ›  字节跳动技术团队

Multi-SWE-bench:首个多语言代码修复基准开源

字节跳动技术团队  · 公众号  · 架构  · 2025-04-12 15:11
    

文章预览

字节跳动豆包大模型团队正式开源首个多语言类 SWE 数据集——Multi-SWE-bench,可用于评估和提升大模型“自动修 Bug”能力。 在 SWE-bench 基础上,Multi-SWE-bench 首次覆盖 Python 之外的 7 种主流编程语言,是真正面向“全栈工程”的评测基准。其数据均来自 GitHub issue,历时近一年构建,以尽可能准确测评和提高大模型高阶编程智能水平。 本文将介绍 Multi-SWE-bench 的研究背景、数据集构建及后续计划,希望与业界共同促使代码生成技术走向成熟。 从 ChatGPT 到 4o、o1、o3、Claude-3.5/3.7,再到 Doubao-1.5-pro、DeepSeek-R1,大模型正在以惊人速度革新编码世界。 如今,AI 早已不限于写函数、查 API,让 AI 自动解决 GitHub 上提交的真实问题(Bug),也已成为衡量模型智能高低的标杆之一。 但问题也随之浮现:现有主流评测数据集,如 SWE-bench,全部是 Python 项目。这导致部 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览