文章预览
©PaperWeekly 原创 · 作者 | 权尚浩然 单位 | 阿里巴巴 研究方向 | 大模型长文本生成 介绍 大模型发展迅速,Qwen,LLaMA 等模型已经展示了超长输入(128k 以上 token)的处理能力,但是还难以产生较长的文本,比如难以生成一个 2000 字的小说或议论文。 我们分析这是由于训练过程中的缺陷:在 pre-training 阶段,尽管有各种长文本来源可供使用,却缺乏有效的指令来引导这种能力;相反,在post-training阶段,大多数由人工或 AI 增强的问答对都比较短,这导致训练好的大型语言模型在生成长篇的与人类偏好对齐的输出时面临挑战。 为了解决这个问题,已有的工作采用了两种策略:反向生成指令 (instruction backtranslation) 和行为模仿,以构建具有长篇回复的数据来微调模型。然而,获得涵盖各种长生成任务和领域的高质量数据具有挑战性;而行为模仿假设
………………………………