Multi-SWE-bench：首个多语言代码修复基准开源

字节跳动技术团队 · 公众号 · 架构 · 2025-04-12 15:11

文章预览

字节跳动豆包大模型团队正式开源首个多语言类 SWE 数据集——Multi-SWE-bench，可用于评估和提升大模型“自动修 Bug”能力。在 SWE-bench 基础上，Multi-SWE-bench 首次覆盖 Python 之外的 7 种主流编程语言，是真正面向“全栈工程”的评测基准。其数据均来自 GitHub issue，历时近一年构建，以尽可能准确测评和提高大模型高阶编程智能水平。本文将介绍 Multi-SWE-bench 的研究背景、数据集构建及后续计划，希望与业界共同促使代码生成技术走向成熟。从 ChatGPT 到 4o、o1、o3、Claude-3.5/3.7，再到 Doubao-1.5-pro、DeepSeek-R1，大模型正在以惊人速度革新编码世界。如今，AI 早已不限于写函数、查 API，让 AI 自动解决 GitHub 上提交的真实问题（Bug），也已成为衡量模型智能高低的标杆之一。但问题也随之浮现：现有主流评测数据集，如 SWE-bench，全部是 Python 项目。这导致部 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

字节跳动技术团队 · 掘金 AI 编程社区- 人人都是 AI 编程家竞赛

11 小时前

字节跳动技术团队 · ByteBrain团队EuroSys25 | 秒级推理强化学习系统，实现云计算虚机重调度

昨天

字节跳动技术团队 · 基于LLM的AI应急：多模态信息智能化分析整合助力字节事故处置效率提升30%

2 天前

飞客区块链 · 【酒】{GHA} 一百块钱买白金会籍，还能快速升钛金

12 月前

ETF和LOF圈 · 降息落地，科技普涨

10 月前

地产壹线自选完美模式 · 红鹤王者归来首个项目是新加坡品牌

8 月前