大语言模型(LLMs)通常在海量数据上训练过,这造成了潜在的测试数据污染问题[1, 2, 3],即公开的测试数据如MMLU等会不可避免地被加入训练集或有针对性地overfit测试集的问题。如何保证测试数据能够合理且正确的评估大语言模型这一问题引起了学术界的广泛关注。本文提出了DyVal [1] (Dynamic Evaluation,动态评测协议),利用有向无环图(Directed Acyclic Graphs, DAGs)动态生成测试数据,减少了测试数据被模型记忆的可能。此外,DyVal生成的评测数据还可以作为语言模型的数据增强,如,在DyVal上生成的数据微调Llama2-7b可以有效的提升其在众多reasoning数据集上的表现(GSM8K、FOLIO等)。动态评测是大语言模型评测的新方向,我们期待越来越多的工作出现在这一领域,帮助人们更好地理解模型的真实能力。论文标题:DyVal: Dynamic Evaluation of Large Language Models for R
………………………………