专栏名称: DeepTech深科技
“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面:1、基于科学的发现;2、真正的科技创新;3、深科技应用的创新。
目录
今天看啥  ›  专栏  ›  DeepTech深科技

去中心化训练更进一步,全球首个分布式强化学习训练的320亿参数模型发布

DeepTech深科技  · 公众号  · 科技媒体  · 2025-05-14 21:46
    

主要观点总结

Prime Intellect团队发布了全球首个去中心化训练的320亿参数规模的推理模型INTELLECT-2。该模型采用完全异步的强化学习范式,在由全球贡献者组成的动态、异构且无需许可的计算网络中成功训练。文章介绍了其设计思路、技术实现和取得的成果,并指出其对于AI民主化和开源发展的重要意义。

关键观点总结

关键观点1: 全球首个去中心化训练的推理模型发布

介绍了Prime Intellect团队发布的全球首个去中心化训练的推理模型INTELLECT-2,它是全球首个通过完全异步的强化学习范式训练出来的模型。

关键观点2: 技术实现与特点

描述了INTELLECT-2的技术实现,包括其专为全球分布式、异步强化学习设计的技术栈,以及采用的关键技术和工具,如DiLoCo框架、OpenDiLoCo、PRIME-RL等。

关键观点3: 模型训练与实验

介绍了模型的训练过程,包括训练数据集、训练方法、训练过程中的挑战以及应对策略等。同时,通过实验结果展示了模型在解决数学和编码问题上的能力。

关键观点4: 模型的应用与意义

阐述了INTELLECT-2模型对于AI的民主化和开源发展的重要意义,以及其在资本市场上的反响和未来的发展前景。

关键观点5: 未来计划与挑战

介绍了Prime Intellect团队未来的计划,包括提高推理与训练的计算比率、为推理模型引入工具调用能力、推动众包RL任务和环境建设等,同时也指出了未来面临的挑战。


文章预览

去年我们曾报道了 Prime Intellect 团队发布的全球首个去中心化训练的 10B 级别模型 INTELLECT-1, 它首次验证了跨越广阔地域、利用分布式 GPU 资源训练大规模语言模型的可能性 。时隔一年,INTELLECT-2 也终于来了,这是一款参数规模达到 320 亿的更为强大的推理模型,其核心亮点在于, 它是全球首个通过完全异步的强化学习( RL,Reinforcement Learning)范式,在一个由全球贡献者组成的动态、异构且无需许可的计算网络中成功训练出来的模型, 让去中心化的 AI 训练又达到了新的高度。 专为全球分布式、异步强化学习设计的技术栈 去年发布的 INTELLECT-1 使用横跨三大洲的 112 块 GPU,基于  DeepMind  提出的 DiLoCo(Distributed Low-Communication, 分布式低通信)框架的复现与扩展 OpenDiLoCo 进行训练,成功验证了在广域网络下进行大规模分布式训练的可行性。而 INTELLECT-2 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览