专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
目录
今天看啥  ›  专栏  ›  新智元

LeCun力荐!进化算法淘汰77%低质数据:RIP方法让模型性能狂飙60%

新智元  · 公众号  · AI  · 2025-02-25 07:51
    

文章预览

   新智元报道   编辑:peter东 乔杨 【新智元导读】 近日,Meta等机构发表的论文介绍了一种通过进化算法构造高质量数据集的方法: 拒绝指令偏好(RIP),得到了Yann LeCun的转赞。 相比未经过滤的数据,使用RIP构建的数据集让模型在多个基准测试中都实现了显著提升。 在LLM的开发中,推动模型进步的主要驱动力是精心挑选高质量的训练示例。 虽然Scaling Law的确能实现「力大砖飞」,但仅仅增加数据量并不能保证模型性能的提升,数据的质量才是关键。 低质量的数据可能会引入噪声,影响模型的训练效果。 那么,有什么方法能自动筛选出,甚至是自动创建出高质量又兼具多样性的数据集? 最近,Meta、UC伯克利、NYU等机构的学者提出了一种最新方法,简称RIP,让低质量数据「一路走好」的同时,也是在暗示——只有成功存活下来的数据才是高质 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览