文章预览
今天是2024年11月12日,星期二,北京,天气雾。 先说关于 RAG切分的开源库Chonkie :https://github.com/bhavnicksm/chonkie,https://pypi.org/project/chonkie/,支持 TokenChunker : Splits text into fixed-size token chunks; WordChunker : Splits text into chunks based on words; SentenceChunker : Splits text into chunks based on sentences; SemanticChunker : Splits text into chunks based on semantic similarity;SDPMChunker: Splits text using a Semantic Double-Pass Merge approach共5种切分方式, 详细 看https://github.com/bhavnicksm/chonkie/blob/main/DOCS.md, 一些对比结论 :https://github.com/bhavnicksm/chonkie/blob/main/benchmarks/README.md,跟其他切分组件(如LangChain、LlamaIndex)的对比,可作为再次温习使用。 今天,我们来看看关于实际业务落地中的 文档顺序的问题,文档阅读顺序,这个问题其实很常见,一方面,这个可以用于文档转markdown,尤其是涉及到包括双栏、
………………………………