今天看啥  ›  专栏  ›  开放知识图谱

论文浅尝 | 逐步蒸馏!使用少量训练数据和较小模型超越大语言模型

开放知识图谱  · 公众号  ·  · 2023-12-22 19:40
笔记整理:康婧淇,东南大学硕士生,研究方向为自然语言处理、信息抽取链接:https://arxiv.org/abs/2305.023011. 动机本文的动机是将大型语言模型(LLMs)的任务特定知识提炼到更小的专业模型中。作者改变了对LLMs的视角,将其视为可以进行推理的代理,能够生成自然语言的理由来解释其预测的标签。这些理由可以包含与任务相关的知识,例如“面积=长度×宽度”,这些知识原本需要大量数据才能让小型任务特定模型学习。作者利用提取的理由作为额外的、更丰富的信息来训练小型模型,通过多任务训练设置,同时进行标签预测和理由预测任务。通过逐步蒸馏,我们可以学习到性能优于LLMs的任务特定小型模型,使用的模型参数比LLMs少500倍以上,并且相比传统的微调或提炼方法,所需的训练样本数量要少得多。这些小型模型在4个自然语言处理基准测试 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照