|
零帧起手!slime 光速上手使用指南 青稞AI · 公众号 · AI · 21 小时前 · |
|
再聊一下RL框架与算法的协同演化 青稞AI · 公众号 · AI · 21 小时前 · |
|
公众号 · AI · 昨天 · · |
|
公众号 · AI · 昨天 · · |
|
如何理解 RL Off-Policy 优化中的重要性采样? 青稞AI · 公众号 · AI · 2 天前 · |
|
公众号 · AI · 3 天前 · · |
|
公众号 · AI · 4 天前 · · |
|
如何用 Data Packing 加速大模型训练?以及会不会给 loss 计算带来问题 青稞AI · 公众号 · AI · 5 天前 · |
|
深扒RL叠的一堆trick,到底哪个有用? 青稞AI · 公众号 · AI · 5 天前 · |
|
200+论文!全面解析RL基础知识 青稞AI · 公众号 · AI · 6 天前 · |
|
公众号 · AI · 6 天前 · · |
|
公众号 · AI · 6 天前 · · |
|
公众号 · AI · 1 周前 · · |
|
本周六上午!一起聊聊ROLL:面向 Agentic 场景的生产级大规模强化学习训练框架 青稞AI · 公众号 · AI · 1 周前 · |
|
ROLL:生产级大规模强化学习框架 青稞AI · 公众号 · AI · 1 周前 · |
|
公众号 · AI · 1 周前 · · |
|
纯干货!关于 SFT 的22条经验分享 青稞AI · 公众号 · AI · 1 周前 · |
|
公众号 · AI · 1 周前 · · |
|
公众号 · AI · 1 周前 · · |
|
公众号 · AI · 1 周前 · · |