gpt4 book ai didi

python - 从布局与复制粘贴相同的 PDF 文件中获取数据

转载 作者:太空宇宙 更新时间:2023-11-04 03:01:20 24 4
gpt4 key购买 nike

我有一个我希望自动化的过程,它涉及从 PDF 文件中获取一系列表格。目前,我可以通过在任何查看器(Adobe、Sumatra、okular 等)中打开文件,然后按 Ctrl+A、Ctrl+C、Ctrl+V 将其打开到记事本,它会保持每一行与合理的对齐足够的格式,然后我可以运行一个正则表达式并将其复制并粘贴到 Excel 中,以备后用。

当尝试使用 python 执行此操作时,我尝试了各种模块,PDFminer 是主要的模块,它通过使用 this example for instance 来工作。 .但它在单个列中返回数据。其他选项仅包括 getting it as an html table , 但在这种情况下,它会添加额外的拆分中间表,这会使解析更加复杂,甚至偶尔会在第一页和第二页之间切换列。

我现在已经得到了一个临时解决方案,但我担心我正在重新发明轮子,因为我可能只是缺少解析器中的核心选项,或者我需要考虑一些基本选项PDF 渲染器致力于解决这个问题。

关于如何处理它的任何想法?

最佳答案

我最终实现了一个基于 this one 的解决方案, 由 tgray 的代码自行修改.到目前为止,它在我测试过的所有情况下都始终如一地工作,但我还没有确定如何直接操纵 pdfminer 的参数以获得所需的行为。

关于python - 从布局与复制粘贴相同的 PDF 文件中获取数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40821501/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com