gpt4 book ai didi

pandas - PySpark Tabula-Py Read_PDF(错误 : No module named 'org.apache.commons' )

转载 作者:行者123 更新时间:2023-12-03 05:10:47 28 4
gpt4 key购买 nike

我在 Azure 中运行管道已有 4 个月了,昨晚它突然崩溃了。我有以下代码:

!pip install tabula-py
from tabula.io import read_pdf
import tabula
df = tabula.io.read_pdf(BytesIO(pdf_content), pandas_options={'header': None}, pages=3, stream=True)[0]

我现在突然收到这个错误:

~/cluster-env/env/lib/python3.8/site-packages/tabula/io.py in __init__(self, java_options, silent)
92
93 from java import lang
---> 94 from org.apache.commons import cli
95 from technology import tabula
96

ModuleNotFoundError: No module named 'org.apache.commons'

如有任何帮助,我们将不胜感激。

最佳答案

在 tabula 顺利运行 6 个月后,今天在 databricks 环境中也发生了同样的事情。我的修补程序是 pip 安装版本 2.7.0,因为我认为该错误是由今天发布的最新版本 2.8.1 引起的。

关于pandas - PySpark Tabula-Py Read_PDF(错误 : No module named 'org.apache.commons' ),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/77077943/

28 4 0