pandas - PySpark Tabula-Py Read_PDF(错误 : No module named 'org.apache.commons' )-6ren

pandas - PySpark Tabula-Py Read_PDF(错误 : No module named 'org.apache.commons' )

转载作者：行者123 更新时间：2023-12-03 05:10:47

28

4

我在 Azure 中运行管道已有 4 个月了，昨晚它突然崩溃了。我有以下代码:

!pip install tabula-py
from tabula.io import read_pdf
import tabula
df = tabula.io.read_pdf(BytesIO(pdf_content), pandas_options={'header': None}, pages=3, stream=True)[0]

我现在突然收到这个错误:

~/cluster-env/env/lib/python3.8/site-packages/tabula/io.py in __init__(self, java_options, silent)
     92 
     93         from java import lang
---> 94         from org.apache.commons import cli
     95         from technology import tabula
     96 

ModuleNotFoundError: No module named 'org.apache.commons'

如有任何帮助，我们将不胜感激。

最佳答案

在 tabula 顺利运行 6 个月后，今天在 databricks 环境中也发生了同样的事情。我的修补程序是 pip 安装版本 2.7.0，因为我认为该错误是由今天发布的最新版本 2.8.1 引起的。

关于pandas - PySpark Tabula-Py Read_PDF(错误 : No module named 'org.apache.commons' )，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/77077943/

28

4

0

文章推荐： spring - 如何在 Swagger 中连接 importMappings 和 yaml

文章推荐： android - 如何在 Gradle 中将 .cmd 文件作为任务运行？

文章推荐： azure - Kusto 查询动态 json

首页

博学

6Ren·AI

商城

pandas - PySpark Tabula-Py Read_PDF(错误 : No module named 'org.apache.commons' )