主要观点总结
全球网友利用闲置显卡组队训练大模型,创下互联网预训练新纪录。NouResearch推出Psyche网络,通过去中心化方式革新人工智能训练。Psyche网络利用区块链技术汇聚全球计算资源,成功启动40B参数大语言模型的预训练任务。该大语言模型采用DeepSeek V3的多头潜在注意力架构,相较于其他模型更具表达力。Psyche网络鼓励开源社区提出新的模型架构和训练方法,并降低训练成本。此外,NouResearch还通过DisTrO优化器和Solana区块链等技术,解决了去中心化训练中的网络带宽瓶颈问题。Psyche网络的封闭测试网实验验证了多项理论设想,标志着分布式去中心化训练从理论走向现实的关键一步。NouResearch的初期目标是先上线一个封闭测试网,并在后续阶段逐步引入更高级的功能。强化学习和区块链技术在该网络中发挥重要作用。
关键观点总结
关键观点1: 全球计算资源利用和去中心化AI训练
全球网友利用闲置显卡进行大模型训练,创下互联网预训练新纪录。NouResearch推出的Psyche网络通过去中心化方式革新人工智能训练,降低训练成本,推动AI发展的民主化。
关键观点2: 大语言模型的架构和表达力
Psyche网络成功启动的40B参数大语言模型采用DeepSeek V3的多头潜在注意力架构,相较于其他模型更具表达力,提升了模型的性能。
关键观点3: 关键技术突破和实验验证
通过并行实验和封闭测试网实验,NouResearch验证了DisTrO优化器和Solana区块链等技术在实际应用中的效果,为去中心化训练从理论走向现实迈出了关键一步。
关键观点4: 区块链在AI训练中的应用
NouResearch将Psyche网络搭建在区块链上,利用区块链的无需许可、弹性与高可用性、激励机制等优势,为去中心化训练提供了新的可能性。
关键观点5: 未来计划和强化学习的重要性
NouResearch的初期目标是先上线一个封闭测试网,并在后续阶段逐步引入更高级的功能。强化学习在该网络中发挥重要作用,有助于模型在环境中直接互动学习,提高训练效率和效果。
文章预览
新智元报道 编辑:KingHZ 【新智元导读】 全球网友用闲置显卡组团训练大模型。40B大模型、20万亿token,创下了互联网上最大规模的预训练新纪录!去中心化AI的反攻,正式开始。OpenAI等巨头的算力霸权,这次真要凉了? 互联网上最大规模的预训练来了! Nous Research宣布正式推出Psyche网络(Psyche Network),通过去中心化方式革新人工智能(AI)训练。 Psyche网络利用区块链技术,汇聚全球计算资源,成功启动了40B参数大语言模型Consilience的预训练任务,总计 20万亿 token,创下了迄今为止互联网上最大规模的预训练纪录。 大语言模型Consilience采用DeepSeek V3的多头潜在注意力(MLA)架构,相较于Llama使用的GQA架构更具表达力,同时通过优化QKV投影矩阵减少计算开销。 三种注意力的对比 Psyche利用全球闲置的计算资源(如4090、A100和H100等消费级GPU),大幅
………………………………