论文浅尝 | 逐步蒸馏！使用少量训练数据和较小模型超越大语言模型

开放知识图谱 · 公众号 · · 2023-12-22 19:40

笔记整理：康婧淇，东南大学硕士生，研究方向为自然语言处理、信息抽取链接：https://arxiv.org/abs/2305.023011. 动机本文的动机是将大型语言模型（LLMs）的任务特定知识提炼到更小的专业模型中。作者改变了对LLMs的视角，将其视为可以进行推理的代理，能够生成自然语言的理由来解释其预测的标签。这些理由可以包含与任务相关的知识，例如“面积=长度×宽度”，这些知识原本需要大量数据才能让小型任务特定模型学习。作者利用提取的理由作为额外的、更丰富的信息来训练小型模型，通过多任务训练设置，同时进行标签预测和理由预测任务。通过逐步蒸馏，我们可以学习到性能优于LLMs的任务特定小型模型，使用的模型参数比LLMs少500倍以上，并且相比传统的微调或提炼方法，所需的训练样本数量要少得多。这些小型模型在4个自然语言处理基准测试 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博