专栏名称: 老刘说NLP

老刘，NLP开源爱好者与践行者。主页：https://liuhuanyong.github.io。老刘说NLP，将定期发布语言资源、工程实践、技术总结等内容，欢迎关注。

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

如何解决文档处理中的顺序错误问题：文档阅读顺序及OCR阅读顺序代表应对方案

老刘说NLP · 公众号 · · 2024-11-12 08:40

文章预览

今天是2024年11月12日，星期二，北京，天气雾。先说关于 RAG切分的开源库Chonkie ：https://github.com/bhavnicksm/chonkie，https://pypi.org/project/chonkie/，支持 TokenChunker : Splits text into fixed-size token chunks； WordChunker : Splits text into chunks based on words； SentenceChunker : Splits text into chunks based on sentences； SemanticChunker : Splits text into chunks based on semantic similarity；SDPMChunker: Splits text using a Semantic Double-Pass Merge approach共5种切分方式，详细看https://github.com/bhavnicksm/chonkie/blob/main/DOCS.md，一些对比结论：https://github.com/bhavnicksm/chonkie/blob/main/benchmarks/README.md，跟其他切分组件(如LangChain、LlamaIndex)的对比，可作为再次温习使用。今天，我们来看看关于实际业务落地中的文档顺序的问题，文档阅读顺序，这个问题其实很常见，一方面，这个可以用于文档转markdown，尤其是涉及到包括双栏、 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

中国中医 · 【健康养生】乏力困倦、舌苔黏腻？试试 “一疏二排三养四补”，气血慢慢养回来

17 小时前

中国中医 · 母亲节，一起为妈妈们做道养生餐~

2 天前

丁香生活研究 · 别再乱按摩了！缓解腰痛，这个方法超有用，在家就能做

11 月前

雷科技 · 9.98万！五菱星光S要做新一代“神车”？

8 月前

安徽交通广播 · 刚刚，暴涨342%！

4 月前

环境人Environmentor · 中山大学汪善全团队WR：基于微生物组全息分析新技术解析我国典型垃圾填埋场微生物组时空分布与演替特征

2 月前