BPO：灵活的 Prompt 对齐优化技术

GLM大模型 · 公众号 · · 2023-11-20 12:08

并非所有人都熟知如何与 LLM 进行高效交流。一种方案是，人向模型对齐。于是有了「Prompt工程师」这一岗位，专门撰写适配 LLM 的 Prompt，从而让模型能够更好地生成内容。而另一种更为有效的方案则是，让模型向人对齐。这也是大模型研究中非常重要的问题，无论是 GPT 还是 Claude，在对齐技术上花费大量的时间与精力。但，随着模型规模变大，基于训练的对齐技术也需要耗费更大量的资源。因此，我们提出另外的一种方案，即黑盒提示对齐优化技术（Black-box Prompt Optimization），通过优化用户指令，从输入角度对模型进行对齐。这种方法可以在不对 LLM 进行训练的情况下，大幅提升与人类偏好的对齐程度。而且 BPO 可以被替换到各种模型上，包括开源模型和基于API的模型。下面是我们做的一个简单评估：在 VicunaEval 上使用 GPT-4 进行自动评估，BPO 能 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博