gpt4 book ai didi

python - 如何使用Python从PDF文件中提取图表/表格/图形?

转载 作者:行者123 更新时间:2023-12-02 09:29:38 43 4
gpt4 key购买 nike

搜索了很多,但由于我找不到此类问题的解决方案,因此发布了一个明确的问题。大多数答案都涉及相对容易的图像/文本提取。

我需要从 PDF 中分别提取表格和图表作为文本 (csv) 和图像。

任何人都可以帮助我使用高效的 p​​ython 3.6 代码来解决同样的问题吗?

到目前为止,我可以使用 startmark = b"\xff\xd8"和 endmark = b"\xff\xd9"来提取 jpg,但并非 PDF 中的所有表格和图形都是纯 jpg,因此我的代码在实现这一目标。

例如,我想从第 11 页中提取表格,并从第 12 页中提取图形作为图像或以下给出的链接中可行的内容。该怎么做呢?

https://hartmannazurecdn.azureedge.net/media/2369/annual-report-2017.pdf

最佳答案

要提取表格,您可以使用 camelot

这是一个article关于它。

对于图像,我找到了这个问题和答案 Extract images from PDF without resampling, in python?

关于python - 如何使用Python从PDF文件中提取图表/表格/图形?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55899363/

43 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com