专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
目录
相关文章推荐
今天看啥  ›  专栏  ›  数据派THU

多模态大模型人类偏好对齐新范式MM-RLHF!10个评估维度全面提升

数据派THU  · 公众号  · 大数据  · 2025-03-22 17:23
    

文章预览

来源 :PaperWeekly 本文 约3200字 ,建议阅读 6分钟 本文提出了一个高质量、细粒度的数据集。 尽管多模态大语言模型(MLLMs)取得了显著的进展,但现有的先进模型仍然缺乏与人类偏好的充分对齐。这一差距的存在主要是因为现有的对齐研究多集中于某些特定领域(例如减少幻觉问题), 是否与人类偏好对齐可以全面提升 MLLM 的各种能力仍是一个未知数。 快手,中科院,南大合作从三个层面入手推动 MLLM alignment 的发展,包括数据集,奖励模型以及训练算法,最终的 alignment pipeline 使得不同基础模型在 10 个评估维度,27 个 benchmark 上都取得了一致的性能增益,比较突出的是,基于本文提出的数据集和对齐算法对 LLaVA-ov-7B 模型进行微调后,conversational 能力平均提升了 19.5%,安全性平均提升了 60%。 偏好数据,训练算法,模型以及评估 pipeline 均已全面 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览