专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
目录
今天看啥  ›  专栏  ›  数据派THU

仅一行代码,使LLaMA3在知识编辑任务上表现暴涨35%!您确定不来试试嘛?

数据派THU  · 公众号  · 大数据  · 2024-10-23 17:00
    

主要观点总结

本文主要介绍了基于“Locate-then-Edit”的知识编辑方法,以及中科大LDS Lab提出的AlphaEdit和NSE两个方法。AlphaEdit通过一行代码即可提升LLaMA3在序列知识编辑任务上的表现,而NSE则从权重更新方式的角度尝试对序列编辑进行优化。两种方法都旨在解决持续知识编辑过程中的参数更新冲突和累计变化异常问题。文章还介绍了背景、相关论文、实验结果及参考内容。

关键观点总结

关键观点1: AlphaEdit方法简介及优势

AlphaEdit仅需在主流编辑方法中加入一行代码,便可显著提升LLaMA3在序列知识编辑任务上的表现。它通过删除保留误差,让模型专注于最小化新知识误差,并通过投影将权重更新约束在保留知识的零空间中,以保证LLM在被问及保留知识时,其输出保持不变。

关键观点2: NSE方法简介及优势

NSE通过排序关键层中的神经元激活,选择性地收集“有影响力的神经元”来更新权重,从而缓解持续知识编辑过程中的参数更新冲突和累计变化异常问题。该方法引入多层迭代编辑以简化神经元选择过程,并能在单次编辑中有效地完成大规模知识更新。

关键观点3: 背景介绍

现有的基于“Locate-then-Edit”的知识编辑方法虽然取得了成功,但存在难以在更新误差和保留误差之间保持平衡的问题。AlphaEdit和NSE旨在解决这一问题。

关键观点4: 实验与评估

文章提供了部分定性和定量的实验结果,展示了AlphaEdit和NSE的有效性。更多实验结果请参见文章或代码。


文章预览

本文 约2000字 ,建议阅读 5 分钟 仅需在主流编辑方法中加入一行代码,便可暴涨 LLaMA3 在序列知识编辑任务上。 LLMs 常因错误/过时知识产生幻觉,而基于新知识微调耗时且易过拟合、引入额外的知识库或参数模块又会带来不断增加的存储空间压力。因此,基于 “Locate-then-Edit” 的知识编辑(如 ROME)被提出,用“少时间成本、零空间成本”来精准更新特定知识。 在此基础上, 中科大 LDS Lab 提出 AlphaEdit, 仅需在主流编辑方法中加入一行代码,便可暴涨 LLaMA3 在序列知识编辑任务上的表现如下图。 ▲ 图1:各类模型编辑方法在 LLaMA3(8B)上的表现。星号上标用于区别Counterfact数据集和 ZsRE 数据集。SST、RTE 和 CoLA 评估了编辑后模型的通用能力。 相关论文: 论文标题: AlphaEdit: Null-Space Constrained Knowledge Editing for Language Models 论文链接: https://arxiv.org/abs/24 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览