专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

训练数据合成(一)

AINLP  · 公众号  ·  · 2024-11-09 22:56
    

文章预览

现在大模型的训练方法大部分都比较固定了,那么最重要的问题就是搞数据。真实世界的高质量数据虽然好用,但是成本高数量少,于是合成数据就成了一条很重要的路子。较新的专门模型如数学模型、代码模型或者阅读理解模型,基本上都已经使用上了大量的合成数据。这些领域的合成数据和训练的模型经过多次迭代,又会反哺下一代通用模型,左脚踩右脚直接起飞。Llama-3就是这么干的。 最近在搞代码能力的提升,很有必要学习一下(代码)数据合成的方法。 1.big picture 正好找到一篇新出的综述,《A Survey on Data Synthesis and Augmentation for Large Language Models》,梳理了“面向LLM的数据生成”相关的250篇文献,做了一些分类和总结。参考这篇综述先看下有那些思路。 首先,文中把数据的生成分成两大类:data augmentation和data synthesis。 data augmentation是一种“ ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览