大模型「强崩溃」！Meta新作：合成数据有「剧毒」，1%即成LLM杀手

大模型智能 · 公众号 · · 2024-10-17 00:00

文章预览

大模型智能｜分享来源 | 新智元编辑 | 乔杨桃子 1%的合成数据，就让LLM完全崩溃了？ 7月，登上Nature封面一篇论文证实，用合成数据训练模型就相当于「近亲繁殖」，9次迭代后就会让模型原地崩溃。论文地址：https://www.nature.com/articles/s41586-024-07566-y 然而，许多大佬都不同意这篇文章的方法和结论。比如，Scale AI的CEO Alexandr Wang就很看好合成数据的前景，英伟达发布的开源模型Nemotron-4 340B 甚至使用了98%的合成数据。最近，Meta、纽约大学、UCLA机构发表的最新论文，再一次动摇了这些大佬们的结论。论文地址：https://arxiv.org/abs/2410.04840 他们发现，即使合成数据仅仅占到总数据集的最小部分，甚至是1%的比例，仍然可能导致模型崩溃。甚至，ChatGPT和Llama这种较大的模型，还可能放大这种「崩溃」现象。 01 强模型崩溃，如何发生的？随着越来越多的 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博