|
公众号 · AI · 1 月前 · · |
|
公众号 · AI · 1 月前 · · |
|
公众号 · AI · 1 月前 · · |
|
公众号 · AI · 1 月前 · · |
|
公众号 · AI · 1 月前 · · |
|
探索为什么要融合SFT和RL,以及应该怎么融合 青稞AI · 公众号 · AI · 1 月前 · |
|
多模态大模型文心4.5后训练详解 青稞AI · 公众号 · AI · 1 月前 · |
|
Skywork or1 技术报告解读——小作坊的强化之路! 青稞AI · 公众号 · AI · 1 月前 · |
|
高质量奖励函数,让你告别RL探索难题!基于LLM的自动奖励生成方法R* 青稞AI · 公众号 · AI · 1 月前 · |
|
公众号 · AI · 1 月前 · · |
|
公众号 · AI · 1 月前 · · |
|
公众号 · AI · 1 月前 · · |
|
公众号 · AI · 1 月前 · · |
|
2025最新!三万字长文,详解统一多模态理解与生成模型的进展、挑战与机遇 青稞AI · 公众号 · AI · 1 月前 · |
|
公众号 · AI · 1 月前 · · |
|
公众号 · AI · 1 月前 · · |
|
公众号 · AI · 1 月前 · · |
|
公众号 · AI · 1 月前 · · |
|
谈一谈对大模型对齐框架的反思及其改进思路 青稞AI · 公众号 · AI · 1 月前 · |
|
南京大学俞扬教授:通用奖励模型,早已内生于大型语言模型之中 青稞AI · 公众号 · AI · 1 月前 · |