gpt4 book ai didi

python - 从 PDF python 中提取/识别表

转载 作者:IT老高 更新时间:2023-10-28 21:32:38 26 4
gpt4 key购买 nike

是否有任何支持表格识别和提取的开源库?

我的意思是:

  1. 识别表结构存在
  2. 根据内容对表格进行分类
  3. 以有用的输出格式从表格中提取数据,例如JSON/CSV 等

我查看了有关此主题的类似问题并发现以下内容:

  • PDFMiner它解决了问题 3,但似乎用户需要向 PDFMiner 指定每个表存在表结构的位置(如果我错了,请纠正我)
  • pdf-table-extract它试图解决问题 1,但根据 To-Do list,目前无法识别由空格分隔的表。这是一个问题,因为我的 PDF 中的所有表格都由空格分隔!

目前,我认为我必须花费大量时间开发机器学习解决方案来识别 PDF 中的表结构。因此,任何替代方法都将受到欢迎!

最佳答案

在探索 OCR 库、边界框和聚类算法许多富有成果的小时后,我找到了一个简单到让你想哭的解决方案!

希望你使用的是 Linux;

pdftotext -layout NAME_OF_PDF.pdf

太棒了!!

现在你有一个漂亮的文本文件,所有信息都排列在漂亮的列中,现在格式化为 csv 等很简单。

正是在这样的时刻,我爱上了 Linux,这些家伙为所有事情想出了惊人的解决方案,并免费提供!

关于python - 从 PDF python 中提取/识别表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28532770/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com