|
公众号 · AI · 1 周前 · · |
|
公众号 · AI · 1 周前 · · |
|
公众号 · AI · 2 周前 · · |
|
公众号 · AI · 2 周前 · · |
|
实录精选|通义千问研究员郑楚杰博士:GSPO算法解析与问答 青稞AI · 公众号 · AI · 2 周前 · |
|
梳理SGLang中DP Attention及其Padding问题 青稞AI · 公众号 · AI · 2 周前 · |
|
公众号 · AI · 2 周前 · · |
|
公众号 · AI · 2 周前 · · |
|
公众号 · AI · 2 周前 · · |
|
强化学习的10层境界(下):多智能体与博弈,以及LLM引导的策略生成 青稞AI · 公众号 · AI · 2 周前 · |
|
如何推广 RLVR 到通用领域推理问题?一起来聊聊基于参考概率奖励的强化学习 RLPR 青稞AI · 公众号 · AI · 2 周前 · |
|
公众号 · AI · 2 周前 · · |
|
公众号 · AI · 3 周前 · · |
|
公众号 · AI · 3 周前 · · |
|
聊聊SeaAI Lab的PP优化工作 PipeOffload 青稞AI · 公众号 · AI · 3 周前 · |
|
实录精选|slime开源项目作者朱子霖:Infra视角下,为 RL Scaling设计的训练框架 青稞AI · 公众号 · AI · 3 周前 · |
|
公众号 · AI · 3 周前 · · |
|
公众号 · AI · 3 周前 · · |
|
OpenAI开源小模型gpt-oss的妙妙小观察 青稞AI · 公众号 · AI · 3 周前 · |
|
公众号 · AI · 3 周前 · · |