gpt4 book ai didi

php - 将数据从 PDF 抓取到 CSV? Python 与 PHP?

转载 作者:塔克拉玛干 更新时间:2023-11-03 05:36:39 25 4
gpt4 key购买 nike

我有一大堆报告,我每天都在手工编辑这些报告,而且这要花很长时间,所以我在考虑将整个过程自动化。我将从以下位置抓取数据:(1) HTML,(2) CSV/XLS,(3) PDF。我主要只使用 PHP 从 CSV/HTML 中抓取数据,想知道是否有任何可靠的库或方法可以用 PHP 从 PDF 中抓取表格数据?

我也刚刚开始学习 Python,发现尝试将 PDFMiner 与 Scrapy 结合使用可能是个好主意。这样会更好吗?或者还有其他选择吗?

请告诉我。谢谢!

最佳答案

Beautiful Soup是另一个很好的抓取替代品,PDFminer 是我发现的最好的 Python PDF 解析器。我主要使用 pdf2txt.py,然后在需要时从那里重新格式化。

关于php - 将数据从 PDF 抓取到 CSV? Python 与 PHP?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7356552/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com