|
|
【NeurIPS2025】北航团队提出新的离线分层扩散框架:基于结构信息原理 深度强化学习实验室 · 公众号 · · 1 月前 · |
|
|
【强化学习之父Richard Sutton】通向超级智能的八步愿景(最新演讲揭示OaK架构) 深度强化学习实验室 · 公众号 · · 3 月前 · |
|
|
【前沿技术】开启RL Scaling新纪元,siiRL开源,支持超千卡规模高效训练,完全分布式强化学... 深度强化学习实验室 · 公众号 · · 3 月前 · |
|
|
【IEEE-TPAMI顶刊论文】既“安全”又“鲁棒”的强化学习算法统一设计框架DRAC 深度强化学习实验室 · 公众号 · · 4 月前 · |
|
|
【重磅开源】强化学习训练框架ROLL,淘天联合爱橙发布高效支持十亿到千亿参数大模型训练 深度强化学习实验室 · 公众号 · AI媒体 科技自媒体 · 4 月前 · |
|
|
【最新算法FastTD3】UC伯克利重磅开源代码,并行+大批次+分布Critic,3小时搞定人形机器... 深度强化学习实验室 · 公众号 · · 5 月前 · |
|
|
【Deepseek团队招聘】强化学习算法研究员、工程师、实习生(base 北京/杭州) 深度强化学习实验室 · 公众号 · · 5 月前 · |
|
|
【前沿最新】强化学习预训练来了,「Next-Token」范式改变! 深度强化学习实验室 · 公众号 · 科技自媒体 · 5 月前 · |
|
|
【清华大学】突破不可导策略的训练难题,零阶优化与强化学习的深度嵌合 深度强化学习实验室 · 公众号 · 科技媒体 算法 · 5 月前 · |
|
|
【清华大学】强化学习训练过程的绝对安全性及其保障机制 深度强化学习实验室 · 公众号 · · 6 月前 · |
|
|
【重磅】全球首个分布式RL训练模型INTELLECT-2发布,整合全球闲置计算资源完成了强化学习训练 深度强化学习实验室 · 公众号 · · 6 月前 · |
|
|
RL训练总崩溃?R1-Reward稳定解锁奖励模型Long-Cot推理能力 深度强化学习实验室 · 公众号 · · 6 月前 · |
|
|
【重磅最新综述】多智能体具身智能:进展和未来方向(北理工/南大/西交大/浙大联合发布) 深度强化学习实验室 · 公众号 · · 6 月前 · |
|
|
JMLR 论文解读 | 北航团队提出SIDM:基于结构信息原理的通用分层决策框架 深度强化学习实验室 · 公众号 · · 6 月前 · |
|
|
蚂蚁集团全球招募顶尖 AI人才 深度强化学习实验室 · 公众号 · · 6 月前 · |
|
|
【清华大学】DSAC-T算法的技术解读,中小模型强化学习算法的最佳选择 深度强化学习实验室 · 公众号 · · 6 月前 · |
|
|
【论文分享】强化学习最优性条件的哈密顿动力学解释 深度强化学习实验室 · 公众号 · · 7 月前 · |
|
|
【论文解读】对抗强化学习的光滑策略迭代(SPI)架构详解 深度强化学习实验室 · 公众号 · · 7 月前 · |
|
|
ICLR 2025 Spotlight | SmODE: 神经常微分网络让深度强化学习的控制更加丝滑... 深度强化学习实验室 · 公众号 · · 8 月前 · |