今天看啥  ›  专栏  ›  AI修猫Prompt

斯坦福重磅,突破小规模语料瓶颈,EntiGraph合成数据增强算法让LLM更聪明

AI修猫Prompt  · 公众号  ·  · 2024-09-20 07:10
    

文章预览

点击上方 蓝字 关注我 本文:4500字阅读  12分钟   如何处理小众数据,如何让这些模型高效地学习专业领域的知识,一直是一个挑战。斯坦福大学的研究团队最近提出了一种名为EntiGraph的合成数据增强算法,为这个问题带来了新的解决思路。 简单点说,就是用这个 名为EntiGraph的 合成数据增强算法,生成人工合成数据,增加 知识表述的多样性,为语言模型的学习提供更好的素材。 小规模语料学习的困境 大语言模型通常需要海量的训练数据才能学到有用的知识。比如,GPT-3就是在超过45TB的文本上训练而成的。但在很多专业领域,我们往往只能获得有限的高质量文本资料,可能只有几百万个词汇。直接用这些小规模语料来训练模型,效果往往不尽如人意。 研究者们发现,即使是同样的事实,大语言模型也需要在不同的表述中反复出现数百上千次, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览