gpt4 book ai didi

python - 提取PDF表格,Python3,tabula-py

转载 作者:太空宇宙 更新时间:2023-11-03 11:44:03 29 4
gpt4 key购买 nike

<分区>

尝试使用 Python 3.6 从 PDF 中提取表格。似乎 [pyPDF2][1] 失败并且 [pdfminer][2] 与 3.x 不兼容。我找到了 [tabula][3] 的 python 包装器。

import tabula
file_list = get_pdf_list()

text = tabula.read_pdf(file_list[0])
print(text)

tabula.convert_into(file_list[0], "test.json", ouput_format="json")

read_pdf 和 convert_into 都返回空结果。 PyPDF2 有同样的问题。运行时没有报错

我开始认为这与我的 pdf 格式有关。谁有更多经验?我正在尝试从 pdf 中的表中提取值。

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com