|
|
Thinking with Images 为什么(不)work? 青稞AI · 公众号 · AI · 21 小时前 · |
|
|
通往 AGI 的必经之路:Agent 自进化到底是在“进化”什么? 青稞AI · 公众号 · AI · 昨天 · |
|
|
从零开始构建自进化智能体的心路历程 青稞AI · 公众号 · AI · 2 天前 · |
|
|
超详细!一张表串讲 LLM-RL 中 KL 散度正则的正确与错误用法 青稞AI · 公众号 · AI · 4 天前 · |
|
|
苦涩的教训!ROLL团队分享:Agentic RL 训练中的实践经验 青稞AI · 公众号 · AI · 5 天前 · |
|
|
· 公众号 · AI · 1 周前 · |
|
|
少用 sense 挑战 math!如何把 post train 做好,聊聊后训练方法论 青稞AI · 公众号 · AI · 1 周前 · |
|
|
比肩 GPT-5 的 Kernel Coding 模型!Dr. Kernel 用多轮 RL 训练大模... 青稞AI · 公众号 · AI · 1 周前 · |
|
|
简单明了!一张图看懂 GRPO 的十几种主流变体算法 青稞AI · 公众号 · AI · 1 周前 · |
|
|
减论APP终于上线了!科研人的福利,发论文也能有收益! 青稞AI · 公众号 · AI · 1 周前 · |
|
|
为什么 Policy Gradient 不能用 Replay Buffer? 青稞AI · 公众号 · AI · 1 周前 · |
|
|
· 公众号 · AI · 1 周前 · |
|
|
MoE 训练到底是开 TP 还是 EP? 青稞AI · 公众号 · AI · 1 周前 · |
|
|
Big Model Smell:Kimi K2.5 背后的 VLM 训练哲学与“N+1”范式 青稞AI · 公众号 · AI · 1 周前 · |
|
|
从 Pretrain 到 Agentic Vision:Kimi K2.5 的原生多模态训练之道 青稞AI · 公众号 · AI · 1 周前 · |
|
|
从 RL 到 Agentic RL 训练框架!一个 RLer 进入 LLM 训练领域后的一年三个月 青稞AI · 公众号 · AI · 1 周前 · |
|
|
从算法到系统工程!大模型训练系统的关键技术详解 青稞AI · 公众号 · AI · 2 周前 · |
|
|
2025 年最具影响力的 10 篇 AI Infra / MLSys论文(工程视角) 青稞AI · 公众号 · AI · 2 周前 · |
|
|
ICLR 2026 Workshop 征稿倒计时10天:迈向 Lifelong Agent 终身智能... 青稞AI · 公众号 · AI · 2 周前 · |
|
|
非对称的保护:深入解析 PPO/GRPO 中 Clip 机制的梯度逻辑 青稞AI · 公众号 · AI · 2 周前 · |