专栏名称: 包包算法笔记
数据挖掘、机器学习、深度学习、Kaggle竞赛分享与交流。
今天看啥  ›  专栏  ›  包包算法笔记

LLM洗数据:怎么做Continue Pretrain的数据

包包算法笔记  · 公众号  ·  · 2024-10-25 22:14
    

文章预览

原文:https://zhuanlan.zhihu.com/p/721492096 打分清洗的文章难产,写起来没有思路,就换换脑子写写旁门左道,探讨一下common数据质量不理想的情况下,如何做一个还可以的Continue Pretrain。 背景 首先介绍下什么是Continue Pretrain(CP)。CP 和 Pretrain、SFT一样指的是 LLM 训练的一个阶段,在前大模型时代还被称作Post Pretrain。CP 是在Pretrain和SFT之间的训练阶段,目的是为模型注入领域知识,这个领域是泛指的领域,既包含金融、法律、教育这种学科领域,也包含推理、理解、创作这种能力领域。现在很多论文工作都说明了我们的通用基座模型还没有达到各个尺寸模型的上限,也就是我们的模型还能学习更多知识,进行更准确的推理。但是做法却并不容易,简单的next token loss + generate 已经无法满足要求了。但是如果只求提升某一方面的能力,那在某一个领域训练一 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览