专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
目录
今天看啥  ›  专栏  ›  量子位

字节Seed首次开源代码模型,拿下同规模多个SOTA,提出用小模型管理数据范式

量子位  · 公众号  · AI  · 2025-05-11 12:20
    

主要观点总结

字节Seed发布了开源代码模型Seed-Coder,其参数量为8.2B,有三个版本:Base、Instruct和Reasoning。模型使用多种策略管理训练数据,包括文件级代码、仓库级代码、Commit数据以及代码相关网络数据。Seed-Coder的预处理和质量过滤策略提高了数据质量,从而提高了模型性能。模型还具有持续预训练的能力,能够使用四个类别的数据进行预训练。此外,字节Seed还开源了其他模型和工具,如视频生成模型和电脑操作智能体UI-TARS等。字节内部团队也在不断调整,重视开源开放、原始性创新和AI普惠等方向。

关键观点总结

关键观点1: Seed-Coder模型的关键特点

模型规模达到8.2B参数;采用分组查询注意力(GQA)机制;通过模型管理训练数据,采用文件级代码、仓库级代码、Commit数据以及代码相关网络数据的策略;具有持续预训练能力,能够提高模型性能;开发了两个特殊变体——指令模型和推理模型。

关键观点2: Seed团队的数据处理策略

采用双层去重策略创建代码语料库;使用语法解析器检查剩余文件,丢弃包含语法错误的文件;使用评分模型过滤低质量代码文件。

关键观点3: 字节Seed的其他开源项目和策略

发布了视频生成模型和深度思考模型;与清华联手推出电脑操作智能体UI-TARS;推出Multi-SWE-bench用于问题解决的多语言基准;调整内部团队结构,重视开源开放、原始性创新和AI普惠等方向。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照