今天看啥  ›  专栏  ›  爱可可-爱生活

通过理论分析和综合实验发现PPO经过精心微调可以优于DPO,在对-20240418052527

爱可可-爱生活  · 微博  · AI  · 2024-04-18 05:25
2024-04-18 05:25 本条微博链接 通过理论分析和综合实验发现PPO经过精心微调可以优于DPO,在对话和代码生成任务上都取得了最先进的结果。 [CL]《Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study》S Xu, W Fu, J Gao, W Ye, W Liu, Z Mei, G Wang, C Yu, Y Wu [Tsinghua University & OpenPsi Inc] (2024) 网页链接 #机器学习##人工智能##论文# ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照