今天看啥  ›  专栏  ›  爱可可-爱生活

本文创新性地提出将Muon优化器用于DiLoCo框架(称为MuL-20250601060141

爱可可-爱生活  · 微博  · AI  · 2025-06-01 06:01
    

文章预览

2025-06-01 06:01 本条微博链接 本文创新性地提出将Muon优化器用于DiLoCo框架(称为MuLoCo),并结合错误反馈机制,通过实验证明Muon的更新特性使其对压缩(尤其是低比特量化)表现出惊人的鲁棒性,能够在LLM预训练中实现与标准DiLoCo相当甚至更好的性能,同时将通信数据量锐减8倍,且内存占用相当。 [LG]《MuLoCo: ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览