Python pdftotext ShellError 使用 textract-6ren

Python pdftotext ShellError 使用 textract

转载作者：太空狗更新时间：2023-10-30 01:28:39

24

4

当我在包含 PDF 文件的目录上运行以下 Python 脚本时，我不断收到此错误:

ShellError: The command pdftotext "path/to/pdf/title.pdf" - failed with exit code 1 ------------- stdout ------------- ------------- stderr ------------- 'pdftotext' is not recognized as an internal or external command, operable program or batch file.

我已确认 pdf2text 和 PDFMiner 已正确安装。这是我第一次使用 textract，它适用于所有其他文件类型(Word 文档、PowerPoint 文档、Excel 文档等)。当 pdf2text 是实际库时，为什么进程调用 pdftotext？

import os
import os.path
import textract

pdf_path = 'path/to/pdf/'

for fname in os.listdir(pdf_path):
    if os.path.isfile(pdf_path+fname ):
        f = textract.process(pdf_path+fname )
        if 'string' in f:
            print fname

谢谢!

最佳答案

我刚刚自己处理完这个问题。据我了解，混淆是 pdftotext是在 Linux 中流行的命令实用程序，而 pdf2text 是 PDFMiner 包的包装器。我的 poppler 和 pdftotext 的 Windows 二进制文件来自 archive.org 链接，所以我觉得在这里链接到它不合适，但是 here's a link我在维基百科页面上找到了一个 Windows 二进制文件。据我所知，pdftotext 往往比 pdfMiner 提供更好的输出。我遇到的问题是生成与您收到的错误相同的错误是 pdftotext.exe 已安装，并且在我的路径中，但如果我没有通过以下方式启动 python 脚本，我会收到错误命令行。

如果您最终下载了它，它会附带一些其他不错的实用程序，例如 pdftohtml 和 pdftops。不过，个人最喜欢的是 pdftotext -layout whatever.txt，它会将 pdf 以明文形式打印到标准输出，所有内容都已到位。

tl;dr 尝试打开命令行并运行程序。如果您仍然可以尝试 (1) 安装 Windows 二进制文件(假设您使用的是 Windows)或 (2) 尝试使用

更新 textract

pip install textract --upgrade

希望对您有所帮助!

关于Python pdftotext ShellError 使用 textract，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/29520913/

24

4

0

文章推荐： c# - Visual Studio 2008 调试问题

文章推荐： python - 在终端中打开 python 时出错

Linux PdfToText 函数返回空白文本文件
我使用了一个 linux 函数将 PDF 文件列表转换为文本。命令: pdftotext -htmlmeta 这适用于我的大部分文件。但对于其中的一小部分，这会返回一个空白文本文件。我不成功的完
python - Azure 函数要求 pdftotext
我的 Azure 函数遇到运行时错误: Result: Failure Exception: Exception: pdftotext is not installed. It is part of
php - shell_exec 不工作无法转换 pdftotext
我正在尝试将 pdf 文件转换为文本文件。当我通过终端运行命令时它工作正常但是当尝试通过 PHP 执行它时它不工作。过去四个小时以来，我一直处于这种情况，我花了很多时间在谷歌上，但没有可用的解决方案
pdftotext - 从 pdf 文件中删除页码、页眉和页脚
我想解析一个pdf文件，因为我正在使用pdftotext实用程序将pdf文件转换为文本文件，现在我想从文本文件中删除页码、页眉和页脚。我正在使用以下语法转换 pdf 文件: pdftotext -l
php - 如何在共享驱动器上执行 xpdf (pdftotext.exe)？
我正在尝试通过 PHP 和 XPDF (pdftotext.exe) 将 pdf 解析为 text。在我的本地主机上，一切正常，但当我尝试移动服务器上的一切时，我遇到了麻烦。首先我检查了服务器上的一
python - 从 Python 运行 pdftotext
我正在尝试使用 pdftotext 软件将 pdf 文档转换为文本文档。我需要从 python 脚本调用此应用程序 inc 命令提示符来转换文件。我有以下代码: import os import
Python pdftotext ShellError 使用 textract
当我在包含 PDF 文件的目录上运行以下 Python 脚本时，我不断收到此错误: ShellError: The command pdftotext "path/to/pdf/title.pdf"
python - 我在为 python 安装 pdftotext 时遇到困难
我正在尝试安装 pdftotext，但即使在安装可视化工具后我仍然收到相同的错误。 pip install 都会发生这种情况，我只是想在我的目录中找到它... 终端输出如下: C:\Users\gar
java - 使用编码参数将 PdfToText 作为 Java 进程运行
我正在运行 PdfToText通过 Java 进程: File pdf = new File( "/path/to/test.pdf" ); File output = new File( "/pat
python - 在 heroku 上安装 pdftotext 库
pdftotext 库是 requirements.txt 中的一个要求。在尝试推送到 heroku 时，出现以下错误: remote: Running setup.py insta
python - 在 python 脚本中调用时 pdftotext 找不到任何要转换的文件
我有一个 python 脚本，它一直崩溃: subprocess.call(["pdftotext", pdf_filename]) 错误是: OSError: [Errno 2] No such f
qt - 由于 poppler，无法在 Windows 上安装 pdftotext
我正在尝试在 Windows 上安装 pdftotext: pip install pdftotext 它最初失败是因为缺少 MS visual studio(现已安装)，现在由于 poppler 问
utf-8 - PDFTOTEXT 输出 UTF-8 格式所需的文件在哪里？
我想使用基于XPDF的PDFTOTEXT命令行工具查看PDF文件，希望得到UTF-8输出。我在 StackOverflow 上看到其他人得到了它——问题 4039930、3809761 和 13618
java - IText 像 pdftotext -layout 一样读取 PDF？
我正在寻找实现 java 解决方案的最简单方法，该解决方案与的输出非常安静 pdftotext -layout FILE 在 Linux 机器上。 (当然它也应该便宜) 我刚刚尝试了 IText、P
ruby-on-rails - ruby PDF :Toolkit using pdftotext
我正在我的 Ruby 项目中转换 pdf 文件。为此，我正在使用 pdf 工具包 gem。文档显示了如何使用 pdftotext pdftotext(文件，outfile = nil，&block)
linux - pdftotext 在 linux 和 windows 上有不同的版本
我正在使用一个名为 pdftotext 的简单实用程序从 pdf 文件中提取文本。我发现在使用 -table 选项时它的输出最干净、最清晰，但是此命令行选项仅适用于该实用程序的 Windows 版本
php - 将 pdftotext 的结果放入 php 变量，而不是文本文件
pdftotext 获取 PDF 文件并将文本转换为 .txt 文件。我如何让 pdftotext 将结果发送到 PHP 变量而不是文本文件？我假设我必须运行 exec('pdftotext/pa
node.js - 将存储在内存中的字符串传递给 pdftotext、antiword、catdoc 等
是否可以调用 CLI 工具，如 pdftotext、antiword、catdoc(文本提取器脚本)传递字符串而不是文件？目前，我阅读了使用 child_process.spawn 调用 pdfto
python - 当我从本地计算机更改为我的虚拟主机时，从 python 脚本调用 pdftotext 不起作用
我写了一个小的 python 脚本来解析/提取 PDF 中的信息。我在我的本地机器上测试了它，我有 python 2.6.2 和 pdftotext 版本 0.12.4。我正在尝试在我的虚拟主机服务
python - 如何在 Python 中使用带有 "-layout"选项的 pdftotext 库
我正在使用 Python 库 pdftotext抓取 PDF 文件的文本。效果很好，但我需要命令行工具随 pdftotext -layout pdf_file.pdf 一起提供的“-layout”选项

首页

博学

6Ren·AI

商城

Python pdftotext ShellError 使用 textract