专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
目录
今天看啥  ›  专栏  ›  新智元

刷新世界记录!40B模型+20万亿token,散户组团挑战算力霸权

新智元  · 公众号  · AI  · 2025-05-26 09:33
    

主要观点总结

全球网友利用闲置显卡组队训练大模型,创下互联网预训练新纪录。NouResearch推出Psyche网络,通过去中心化方式革新人工智能训练。Psyche网络利用区块链技术汇聚全球计算资源,成功启动40B参数大语言模型的预训练任务。该大语言模型采用DeepSeek V3的多头潜在注意力架构,相较于其他模型更具表达力。Psyche网络鼓励开源社区提出新的模型架构和训练方法,并降低训练成本。此外,NouResearch还通过DisTrO优化器和Solana区块链等技术,解决了去中心化训练中的网络带宽瓶颈问题。Psyche网络的封闭测试网实验验证了多项理论设想,标志着分布式去中心化训练从理论走向现实的关键一步。NouResearch的初期目标是先上线一个封闭测试网,并在后续阶段逐步引入更高级的功能。强化学习和区块链技术在该网络中发挥重要作用。

关键观点总结

关键观点1: 全球计算资源利用和去中心化AI训练

全球网友利用闲置显卡进行大模型训练,创下互联网预训练新纪录。NouResearch推出的Psyche网络通过去中心化方式革新人工智能训练,降低训练成本,推动AI发展的民主化。

关键观点2: 大语言模型的架构和表达力

Psyche网络成功启动的40B参数大语言模型采用DeepSeek V3的多头潜在注意力架构,相较于其他模型更具表达力,提升了模型的性能。

关键观点3: 关键技术突破和实验验证

通过并行实验和封闭测试网实验,NouResearch验证了DisTrO优化器和Solana区块链等技术在实际应用中的效果,为去中心化训练从理论走向现实迈出了关键一步。

关键观点4: 区块链在AI训练中的应用

NouResearch将Psyche网络搭建在区块链上,利用区块链的无需许可、弹性与高可用性、激励机制等优势,为去中心化训练提供了新的可能性。

关键观点5: 未来计划和强化学习的重要性

NouResearch的初期目标是先上线一个封闭测试网,并在后续阶段逐步引入更高级的功能。强化学习在该网络中发挥重要作用,有助于模型在环境中直接互动学习,提高训练效率和效果。


文章预览

   新智元报道   编辑:KingHZ 【新智元导读】 全球网友用闲置显卡组团训练大模型。40B大模型、20万亿token,创下了互联网上最大规模的预训练新纪录!去中心化AI的反攻,正式开始。OpenAI等巨头的算力霸权,这次真要凉了? 互联网上最大规模的预训练来了! Nous Research宣布正式推出Psyche网络(Psyche Network),通过去中心化方式革新人工智能(AI)训练。 Psyche网络利用区块链技术,汇聚全球计算资源,成功启动了40B参数大语言模型Consilience的预训练任务,总计 20万亿 token,创下了迄今为止互联网上最大规模的预训练纪录。 大语言模型Consilience采用DeepSeek V3的多头潜在注意力(MLA)架构,相较于Llama使用的GQA架构更具表达力,同时通过优化QKV投影矩阵减少计算开销。 三种注意力的对比 Psyche利用全球闲置的计算资源(如4090、A100和H100等消费级GPU),大幅 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览