|
将监督微调SFT和强化学习RL两种训练范式结合!中科院&美团等提出SRFT 青稞AI · 公众号 · AI · 1 月前 · |
|
公众号 · AI · 1 月前 · · |
|
公众号 · AI · 1 月前 · · |
|
高熵驱动,负向为王:熵感知强化学习如何重塑大模型推理 青稞AI · 公众号 · AI · 1 月前 · |
|
公众号 · AI · 1 月前 · · |
|
公众号 · AI · 1 月前 · · |
|
公众号 · AI · 1 月前 · · |
|
让你的奖励模型从偏好数据中生成它的不确定度 青稞AI · 公众号 · AI · 1 月前 · |
|
LLM中On-Policy与Off-Policy的本质区别是什么? 青稞AI · 公众号 · AI · 1 月前 · |
|
公众号 · AI · 1 月前 · · |
|
公众号 · AI · 1 月前 · · |
|
公众号 · AI · 1 月前 · · |
|
公众号 · AI · 1 月前 · · |
|
公众号 · AI · 1 月前 · · |
|
公众号 · AI · 1 月前 · · |
|
公众号 · AI · 1 月前 · · |
|
论 Agent 的“持久战” 青稞AI · 公众号 · AI · 1 月前 · |
|
Kimi Researcher 背后的一些技术思考 青稞AI · 公众号 · AI · 1 月前 · |
|
公众号 · AI · 2 月前 · · |
|
公众号 · AI · 2 月前 · · |