gpt4 book ai didi

Python pdftotext ShellError 使用 textract

转载 作者:太空狗 更新时间:2023-10-30 01:28:39 24 4
gpt4 key购买 nike

当我在包含 PDF 文件的目录上运行以下 Python 脚本时,我不断收到此错误:

ShellError: The command pdftotext "path/to/pdf/title.pdf" - failed with exit code 1 ------------- stdout ------------- ------------- stderr ------------- 'pdftotext' is not recognized as an internal or external command, operable program or batch file.

我已确认 pdf2text 和 PDFMiner 已正确安装。这是我第一次使用 textract,它适用于所有其他文件类型(Word 文档、PowerPoint 文档、Excel 文档等)。当 pdf2text 是实际库时,为什么进程调用 pdftotext

import os
import os.path
import textract

pdf_path = 'path/to/pdf/'

for fname in os.listdir(pdf_path):
if os.path.isfile(pdf_path+fname ):
f = textract.process(pdf_path+fname )
if 'string' in f:
print fname

谢谢!

最佳答案

我刚刚自己处理完这个问题。据我了解,混淆是 pdftotext是在 Linux 中流行的命令实用程序,而 pdf2text 是 PDFMiner 包的包装器。我的 poppler 和 pdftotext 的 Windows 二进制文件来自 archive.org 链接,所以我觉得在这里链接到它不合适,但是 here's a link我在维基百科页面上找到了一个 Windows 二进制文件。据我所知,pdftotext 往往比 pdfMiner 提供更好的输出。我遇到的问题是生成与您收到的错误相同的错误是 pdftotext.exe 已安装,并且在我的路径中,但如果我没有通过以下方式启动 python 脚本,我会收到错误命令行。

如果您最终下载了它,它会附带一些其他不错的实用程序,例如 pdftohtml 和 pdftops。不过,个人最喜欢的是 pdftotext -layout whatever.txt,它会将 pdf 以明文形式打印到标准输出,所有内容都已到位。

tl;dr 尝试打开命令行并运行程序。如果您仍然可以尝试 (1) 安装 Windows 二进制文件(假设您使用的是 Windows)或 (2) 尝试使用

更新 textract
pip install textract --upgrade

希望对您有所帮助!

关于Python pdftotext ShellError 使用 textract,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29520913/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com