看啥推荐读物

专栏名称: AITIME论道

AI TIME是一群关注人工智能发展，并有思想情怀的青年学者创办的圈子，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，链接全球AI学者，以辩论的形式探讨人工智能领域的未来。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

知乎回答RSS订阅方法

知乎专栏 RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

ICLR 2024 Spotlight | DyVal: 首个大语言模型的动态测试评测协议

AITIME论道 · 公众号 · · 2024-04-21 10:00

大语言模型（LLMs）通常在海量数据上训练过，这造成了潜在的测试数据污染问题[1, 2, 3]，即公开的测试数据如MMLU等会不可避免地被加入训练集或有针对性地overfit测试集的问题。如何保证测试数据能够合理且正确的评估大语言模型这一问题引起了学术界的广泛关注。本文提出了DyVal [1] （Dynamic Evaluation，动态评测协议），利用有向无环图（Directed Acyclic Graphs, DAGs）动态生成测试数据，减少了测试数据被模型记忆的可能。此外，DyVal生成的评测数据还可以作为语言模型的数据增强，如，在DyVal上生成的数据微调Llama2-7b可以有效的提升其在众多reasoning数据集上的表现（GSM8K、FOLIO等）。动态评测是大语言模型评测的新方向，我们期待越来越多的工作出现在这一领域，帮助人们更好地理解模型的真实能力。论文标题：DyVal: Dynamic Evaluation of Large Language Models for R ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博