专栏名称: 老刘说NLP
老刘,NLP开源爱好者与践行者。主页:https://liuhuanyong.github.io。老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。
目录
相关文章推荐
今天看啥  ›  专栏  ›  老刘说NLP

文档解析之表格结构预测获奖方案及开源数据集总结

老刘说NLP  · 公众号  · 程序员  · 2024-11-10 11:54
    

文章预览

今天是2024年11月10日,星期日,北京,天气晴, 今天来看看表格结构预测,表格结构识别任务要求预测表格的行列信息和单元格的合并情况,同时确定每个单元格的坐标框。 最近在做这方面工作,看到一个科大讯飞在2023年举行的表格结构预测竞赛,https://www.bilibili.com/video/BV1nb4y1T7kr?vd_source=d670de3e996c9a3b795a0e40e028adeb _id_from=333.788.player.switch =3,里面有些方案还是蛮有趣的,三个方案,其中有两个都采用有线表跟无线表路由、分而治之的思路。 而这些方案,很多都是依赖于数据,所以我们也来看看数据的问题,目前有哪些表格结构的数据可用。 仔细读,会有收获,供大家一起参考。 一、方案思路回顾 这篇文章(https://www.modb.pro/db/1736927623426154496)对比赛思路做了总结,大家可以看看。 方案1的思路: 将问题转化为一个图像生成任务,使用CNN和Transformer结 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览