gpt4 book ai didi

python - Tabula-py 字体未实现错误

转载 作者:太空宇宙 更新时间:2023-11-04 04:50:00 24 4
gpt4 key购买 nike

PDF文件内容是中文(文字,不是图片等),所以可能会使用不同的字体。我的代码:

>>> import tabula
>>> df = tabula.read_pdf('/data/proj/smartinvestment/cninfo_download_reports/pdf/601101/2016-12-29/1202969937.PDF', pages='all')

错误:

Feb 02, 2018 6:44:34 PM org.apache.pdfbox.pdmodel.font.PDCIDFontType2 <init>
INFO: OpenType Layout tables used in font ABCDEE+ËÎÌå are not implemented in PDFBox and will be ignored

最终的 DataFrame 是空的。

我无法从 stackoverflow 中找到任何想法。我该如何解决这个问题?我应该导入一些字体还是有任何其他原因导致此错误?

最佳答案

我感受到了你的痛苦。但是,我在我的数据框 (df) 中获取数据,执行与您类似的步骤。要排除故障,请查看返回的 df 的类型:

import tabula

pdf_file_name = "my_filename.pdf"
df = tabula.read_pdf(pdf_file_name,
encoding='Ansi') # or encoding='utf-8'

print(type(df))
# df.to_csv("output.csv", index=False)

很有可能,由于您有 pages="all",您的 df 是 df 的列表,这将需要您查看列表中的每个 df 以查看数据的证据。

此外,如果 tabula.read_pdf 的 multiple_tables 参数设置为 True,则 df 将是 df 的列表,同样,这也需要您查看列表中的每个 df 以查看您的数据。

关于python - Tabula-py 字体未实现错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48581038/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com