谷歌MIT最新研究证明：高质量数据获取不难，大模型就是归途

Dots机构投资者社区 · 公众号 · · 2024-01-14 08:15

本文转自微信公众号“新智元”，作者：新智元。编辑：桃子【导读】数据获取最新解，便是从生成模型中学习。获取高质量数据，已经成为当前大模型训练的一大瓶颈。前几天，OpenAI被《纽约时报》起诉，并要求索赔数十亿美元。诉状中，列举了GPT-4抄袭的多项罪证。甚至，《纽约时报》还呼吁摧毁几乎所有的GPT等大模型。一直以来，AI界多位大佬认为「合成数据」或许是解决这个问题的最优解。此前，谷歌团队还提出了用LLM代替人类标记偏好的方法RLAIF，效果甚至不输人类。现如今，谷歌MIT的研究人员发现，从大模型中学习可以得到使用真实数据训练的最佳模型的表征。这一最新方法称SynCLR，一种完全从合成图像和合成描述学习虚拟表征的方法，无需任何真实数据。论文地址：https://arxiv.org/abs/2312.17742实验结果表明，通过SynCLR方法学习到的表征 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博