专栏名称: 江大白
专业有趣的AI内容平台,关注后回复【算法】,获取45家大厂的《人工智能算法岗江湖武林秘籍》
目录
今天看啥  ›  专栏  ›  江大白

DeepSeek的风吹到了多模态,Visual-RFT发布,视觉任务性能飙升20%!(附论文及源码)

江大白  · 公众号  ·  · 2025-04-22 08:00
    

文章预览

以下 文 章来源于微信公众号:PaperAgent 作者: PaperAgent 链接:https://mp.weixin.qq.com/s/8KSxqLDk67I_NSzQZfABwg?poc_token=HBg9BmijNiVvRvRuyKsbh4w0EciVGUnIv52im4RA 本文仅用于学术分享,如有侵权,请联系 后 台作删文处理 导读 上交大提出 Visual-RFT,将 RFT 扩展至视觉任务,借可验证奖励函数(如 IoU、分类准确率奖励)与策略优化,提升 LVLMs 性能。实验显示,少样本场景下视觉任务性能飙升 20%+,相关成果开源。 尽管 DeepSeek-R1风格的模型在语言模型中已经取得了成功,但其在多模态领域的应用仍然有待深入探索。 上交大等提出并开源  Visual-RFT ,将 RFT 扩展到视觉任务,通过设计针对不同视觉任务的可验证奖励函数,提升 LVLMs 在视觉感知和推理任务中的性能。 视觉强化微调(Visual-RFT)的概述。 与(a)数据驱动的视觉指令微调相比,(b)视觉强化微调(Visual-RFT)在有限 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览