专栏名称: Jack Bytes
一个半吊子程序猿,给客官您讲故事。
目录
相关文章推荐
今天看啥  ›  专栏  ›  Jack Bytes

开源前线|扫描识别PDF,并转为MarkDown或EPUB格式,支持本地AI模型!

Jack Bytes  · 公众号  ·  · 2025-04-08 22:16
    

文章预览

大家好,我是Jack Bytes,一个专注于将人工智能应用于日常生活的程序猿,平时主要分享AI、NAS、开源项目等。 最近很多人问我怎么识别PDF格式的书籍并转换为其他可以编辑的格式,目前主流的商业软件其实都支持这个功能,但基本都需要收费。 今天给大家介绍一款开源项目: pdf-craft ,能够将PDF文件转换为各种其他格式,下面我们一起来看下吧! 项目介绍 pdf-craft 是一个开源的PDF处理项目,能够把pdf转换为其他格式,并支持将PDF一页一页读出,使用AI模型将pdf中的正文提取出来,并过滤掉页眉、页脚、脚注、页码等元素。并且还会使用算法判断前后文跨页衔接的问题,生成语义通顺的文本。 使用的主要技术: OCR文本识别技术 Layoutreader模型 大语言模型 安装 在安装之前,需要准备好python 3.10以上的环境,然后执行下面的命令进行安装: pip install pdf- ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览