gpt4 book ai didi

python - 有什么方法可以从python的pdf文件中提取没有任何网格的表?

转载 作者:行者123 更新时间:2023-12-02 17:04:46 40 4
gpt4 key购买 nike

我正在做一个项目,需要我自动执行从pdf文件中的表提取数据的任务。我正在为此项目使用python。
我想知道是否有更好的方法来解决此问题。
我已经使用过表格,但是如果表格中没有清晰的网格,表格将无法正常运行。
我正在考虑使用Open CV在表格和单元格周围绘制网格,然后使用OCR从文件中提取数据。
Here is an example of a pdf page that I'm trying to extract the tables from

<img src="/image/qs9am.png">

最佳答案

我注意到您处理的是数字PDF(不是扫描的PDF)。如果您仍然想探索一些无需使用OCR即可解决问题的可能性,那么您可以:

  • Camelot - tabular data extractor。该库非常适合在没有清晰网格的情况下使用“不良”表。
  • 您也可以考虑使用pdftotext将PDF转换为文本
    然后用Python解析它。
  • 关于python - 有什么方法可以从python的pdf文件中提取没有任何网格的表?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56604769/

    40 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com