大模型测试集作弊？ICLR论文将leak一网打尽！

NewBeeNLP · 公众号 · · 2024-05-18 11:05

文章预览

如果你拿一些题库的输入去推大模型的base模型话，会发现他们经常一股脑就把训练过的题库吐露出来了，比如早前大家在百川上讨论过的：目前数据提供商最值钱的数据就是题库了，国内大模型很懂得投机取巧，反正你是知识类客观题评测，我把全网的题库数据都塞进去。实在买不到买不全的数据，我还可以用测试集的每一道题目去反向爬取互联网相关内容，爬不到原题也能找到差不多的数据，再把他们都塞进去，针对性刷题。这就是离线测试集问题的所在了，这对大模型来说，相当于开卷考试。 ICLR 24有一篇论文讨论了这个选题，讲如何揪出那些作弊的大模型。题目：《Proving Test Set Contamination in Black Box Language Models》链接：https://arxiv.org/abs/2310.17623 代码：https://github.com/tatsu-lab/test_set_contamination 背景：大型语言模型在互联网数据上的预训练 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博