看啥推荐读物

专栏名称: AINLP

关注AI、NLP相关技术，关注算法研发职位和课程；回复"文章"获取历史信息；双语聊天机器人"无名"；中英翻译请输入：翻译翻译内容；自动对联，请输入：上联上联内容；调戏夸夸聊天机器人，请求夸、求赞；查询相似词，请输入: 相似词词条

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

知乎回答RSS订阅方法

知乎专栏 RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

微软ACL 2022：永远不要低估你的训练数据！

AINLP · 公众号 · · 2022-06-26 16:13

从大规模数据中检索通常比较耗时，仅从训练数据中也能有巨大收益。具体做法是检索与输入文本最相似的训练样例，拼接后作为输入喂入模型，然后生成结果。结果在摘要、翻译、语言模型和QA上都取得了不错的效果。论文：Training Data is More Valuable than You Think: A Simple and Effective Method by Retrieving from Training Data[1]Code：microsoft/REINA[2]一句话概述：在检索任务中训练数据在推理时也大有用处。文章上来就给我们呈现了整体的结构：有点类似 Prompt 学习，但本文主要关注有监督学习的设置。结果不仅效果很好，而且很容易扩展（只要增加有标注训练数据就行），计算代价也小。我觉得本文相对最有意思的一个发现是文中所写：即便有成吨的参数，一个模型也不能记住训练数据中的所有模式。所以，重新捕获相关的训练数据作为一个手拉手提示器 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博