看啥推荐读物
深度学习、机器学习、大数据技术社区,分享各类算法原理与源码、数据处理、可视化、爬虫、竞赛开源代码等资源。 如需推送广告合作请联系微个人号: hai299014
今天看啥  ›  专栏  ›  机器学习AI算法工程

怎样完成票据证件的关键信息抽取任务

机器学习AI算法工程  · 公众号  ·  · 2024-02-29 10:00
向AI转型的程序员都关注了这个号👇👇👇文档版面分析是对图片或页面扫描图像上感兴趣的区域进行定位和分类的过程,版面分析的目的是让机器“看懂”文档结构,即将文档图像分割成不同类型内容的区域,并分析区域之间的关系,这是内容识别之前的关键步骤。从广义上讲,大多数方法可以提炼为页面分割和逻辑结构分析。页面分割方法侧重于外观,并使用视觉线索将页面划分为不同的区域;最常见的是文本、图形、图像和表格。逻辑结构分析侧重于为这些区域提供更细粒度的语义分类,即识别作为段落的文本区域,并将其与标题或文档标题区分开来。根据Koichi Kise在2014年提出,如下图所示,印刷文件可分为六种类型:(a)矩形,(b)曼哈顿,©非曼哈顿,(d)多柱曼哈顿,(e)水平重叠,(f)对角线重叠。其中矩形版面指的是由水平和垂直方向的单列 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照