今天看啥  ›  专栏  ›  Dots机构投资者社区

谷歌MIT最新研究证明:高质量数据获取不难,大模型就是归途

Dots机构投资者社区  · 公众号  ·  · 2024-01-14 08:15
本文转自微信公众号“新智元”,作者:新智元。编辑:桃子【导读】数据获取最新解,便是从生成模型中学习。获取高质量数据,已经成为当前大模型训练的一大瓶颈。前几天,OpenAI被《纽约时报》起诉,并要求索赔数十亿美元。诉状中,列举了GPT-4抄袭的多项罪证。甚至,《纽约时报》还呼吁摧毁几乎所有的GPT等大模型。一直以来,AI界多位大佬认为「合成数据」或许是解决这个问题的最优解。此前,谷歌团队还提出了用LLM代替人类标记偏好的方法RLAIF,效果甚至不输人类。现如今,谷歌MIT的研究人员发现,从大模型中学习可以得到使用真实数据训练的最佳模型的表征。这一最新方法称SynCLR,一种完全从合成图像和合成描述学习虚拟表征的方法,无需任何真实数据。论文地址:https://arxiv.org/abs/2312.17742实验结果表明,通过SynCLR方法学习到的表征 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照