今天看啥  ›  专栏  ›  GLM大模型

AlignBench:专为「中文 LLM」而生的对齐评测

GLM大模型  · 公众号  ·  · 2023-12-12 15:50
对齐(Alignment),即大语言模型(LLM)与人类意图的对齐。换句话说,即让 LLM 生成结果更符合人类预期,这可能包括遵循人类的指令,理解人类的意图,进而能够产生有帮助的回答等。对齐是 LLM 能否在实际场景中得到真正应用的关键因素。而如何评估模型的对齐水平同样至关重要 —— 没有评测,就不知道优劣。但目前为止,在中文评测领域关于对齐的评测,依然是一片空白。首先,广泛使用的一些评测数据集,如 MMLU,C-Eval 等,和真实使用场景的差别较大,并不能有效评估模型的指令遵循能力。其次,针对对齐水平的英文评测数据集,如 MT-Bench,AlpacaEval等,受限于其语言、数量、评测方式,也并不能有效评估中文大模型的对齐水平。基于以上考虑,以及实际中的需要,我们推出了 AlignBench。这是一个多维度、综合性的评测基准。据我们所知, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照