专栏名称: AGI Hunt
关注AGI 的沿途风景!
今天看啥  ›  专栏  ›  AGI Hunt

不要再用 markdown 格式给大模型喂网页了!

AGI Hunt  · 公众号  ·  · 2024-12-03 00:00
    

文章预览

你还在用markdown 格式给大模型喂网页吗? 一种叫 HtmlRAG 的新方法,让RAG系统不再「目不识丁」,而是能够充分利用HTML的结构信息,大大提升了知识检索的准确性。 一起来看看这个「神奇」的HtmlRAG到底有什么过人之处。 RAG系统的「近视」问题 要知道,现在的RAG系统可是有点「近视」。 它们在处理网页内容时,通常会把HTML转换成纯文本,结果就像是把一本精美的图文并茂的书变成了一堆没有章法的文字。 这样一来, 网页中的标题、表格结构等重要信息全都丢失了 。 更糟糕的是,原始的HTML文档动辄就有8万多个token,里面还夹杂着大量的CSS和JavaScript代码,简直就是一团乱麻。 HtmlRAG:给RAG系统装上「老花镜」 面对这个问题,研究团队可不甘心就此认输。 他们开发的HtmlRAG就像是给RAG系统装上了一副「老花镜」,让它能够看清HTML的结构,并充分利 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览