今天看啥  ›  专栏  ›  NewBeeNLP

大模型测试集作弊?ICLR论文将leak一网打尽!

NewBeeNLP  · 公众号  ·  · 2024-05-18 11:05
    

文章预览

如果你拿一些题库的输入去推大模型的base模型话,会发现他们经常一股脑就把训练过的题库吐露出来 了,比如早前大家在百川上讨论过的: 目前数据提供商最值钱的数据就是题库了,国内大模型很懂得投机取巧,反正你是知识类客观题评测,我把全网的题库数据都塞进去。 实在买不到买不全的数据,我还可以用测试集的每一道题目去反向爬取互联网相关内容,爬不到原题也能找到差不多的数据,再把他们都塞进去,针对性刷题。 这就是离线测试集问题的所在了,这对大模型来说,相当于开卷考试。 ICLR 24有一篇论文讨论了这个选题,讲如何揪出那些作弊的大模型。 题目:《Proving Test Set Contamination in Black Box Language Models》  链接:https://arxiv.org/abs/2310.17623 代码:https://github.com/tatsu-lab/test_set_contamination 背景: 大型语言模型在互联网数据上的预训练 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览