谷歌复用30年前经典算法，CV引入强化学习，网友：视觉RLHF要来了？

大模型智能 · 公众号 · · 2023-02-28 23:49

来自｜机器之心模型预测和预期使用之间存在错位，不利于 CV 模型的部署，来自谷歌等机构的研究者用强化学习技术的奖励函数，从而改善了计算机视觉任务。ChatGPT 的火爆有目共睹，而对于支撑其成功背后的技术，监督式的指令微调以及基于人类反馈的强化学习至关重要。这些技术也在逐渐扩展到其他 AI 领域，包括计算机视觉（CV）。我们知道，在处理计算机视觉中的复杂输出时，成功的主要标准不在于模型对训练目标的优化程度，而在于预测能力与任务的吻合程度，即模型在预期用途上的表现效果。为了追求这种一致性，有研究者在模型架构、数据、优化、采样、后处理等方面进行了一些改进。例如，在物体检测任务中，研究人员使用了 NMS（non-maximum suppression ）、基于集合的全局损失（set-based global loss）以及改变输入数据来获得在测试时具有 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博