- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
当我在包含 PDF 文件的目录上运行以下 Python 脚本时,我不断收到此错误:
ShellError: The command
pdftotext "path/to/pdf/title.pdf" -
failed with exit code 1 ------------- stdout ------------- ------------- stderr ------------- 'pdftotext' is not recognized as an internal or external command, operable program or batch file.
我已确认 pdf2text 和 PDFMiner 已正确安装。这是我第一次使用 textract,它适用于所有其他文件类型(Word 文档、PowerPoint 文档、Excel 文档等)。当 pdf2text
是实际库时,为什么进程调用 pdftotext
?
import os
import os.path
import textract
pdf_path = 'path/to/pdf/'
for fname in os.listdir(pdf_path):
if os.path.isfile(pdf_path+fname ):
f = textract.process(pdf_path+fname )
if 'string' in f:
print fname
谢谢!
最佳答案
我刚刚自己处理完这个问题。据我了解,混淆是 pdftotext是在 Linux 中流行的命令实用程序,而 pdf2text 是 PDFMiner 包的包装器。我的 poppler 和 pdftotext 的 Windows 二进制文件来自 archive.org 链接,所以我觉得在这里链接到它不合适,但是 here's a link我在维基百科页面上找到了一个 Windows 二进制文件。据我所知,pdftotext 往往比 pdfMiner 提供更好的输出。我遇到的问题是生成与您收到的错误相同的错误是 pdftotext.exe
已安装,并且在我的路径中,但如果我没有通过以下方式启动 python 脚本,我会收到错误命令行。
如果您最终下载了它,它会附带一些其他不错的实用程序,例如 pdftohtml 和 pdftops。不过,个人最喜欢的是 pdftotext -layout whatever.txt
,它会将 pdf 以明文形式打印到标准输出,所有内容都已到位。
tl;dr 尝试打开命令行并运行程序。如果您仍然可以尝试 (1) 安装 Windows 二进制文件(假设您使用的是 Windows)或 (2) 尝试使用
更新 textractpip install textract --upgrade
希望对您有所帮助!
关于Python pdftotext ShellError 使用 textract,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29520913/
我使用了一个 linux 函数将 PDF 文件列表转换为文本。 命令: pdftotext -htmlmeta 这适用于我的大部分文件。 但对于其中的一小部分,这会返回一个空白文本文件。 我不成功的完
我的 Azure 函数遇到运行时错误: Result: Failure Exception: Exception: pdftotext is not installed. It is part of
我正在尝试将 pdf 文件转换为文本文件。当我通过终端运行命令时它工作正常但是当尝试通过 PHP 执行它时它不工作。 过去四个小时以来,我一直处于这种情况,我花了很多时间在谷歌上,但没有可用的解决方案
我想解析一个pdf文件,因为我正在使用pdftotext实用程序将pdf文件转换为文本文件,现在我想从文本文件中删除页码、页眉和页脚。 我正在使用以下语法转换 pdf 文件: pdftotext -l
我正在尝试通过 PHP 和 XPDF (pdftotext.exe) 将 pdf 解析为 text。在我的本地主机上,一切正常,但当我尝试移动服务器上的一切时,我遇到了麻烦。 首先我检查了服务器上的一
我正在尝试使用 pdftotext 软件将 pdf 文档转换为文本文档。 我需要从 python 脚本调用此应用程序 inc 命令提示符来转换文件。 我有以下代码: import os import
当我在包含 PDF 文件的目录上运行以下 Python 脚本时,我不断收到此错误: ShellError: The command pdftotext "path/to/pdf/title.pdf"
我正在尝试安装 pdftotext,但即使在安装可视化工具后我仍然收到相同的错误。 pip install 都会发生这种情况,我只是想在我的目录中找到它... 终端输出如下: C:\Users\gar
我正在运行 PdfToText通过 Java 进程: File pdf = new File( "/path/to/test.pdf" ); File output = new File( "/pat
pdftotext 库是 requirements.txt 中的一个要求。在尝试推送到 heroku 时,出现以下错误: remote: Running setup.py insta
我有一个 python 脚本,它一直崩溃: subprocess.call(["pdftotext", pdf_filename]) 错误是: OSError: [Errno 2] No such f
我正在尝试在 Windows 上安装 pdftotext: pip install pdftotext 它最初失败是因为缺少 MS visual studio(现已安装),现在由于 poppler 问
我想使用基于XPDF的PDFTOTEXT命令行工具查看PDF文件,希望得到UTF-8输出。我在 StackOverflow 上看到其他人得到了它——问题 4039930、3809761 和 13618
我正在寻找实现 java 解决方案的最简单方法,该解决方案与 的输出非常安静 pdftotext -layout FILE 在 Linux 机器上。 (当然它也应该便宜) 我刚刚尝试了 IText、P
我正在我的 Ruby 项目中转换 pdf 文件。为此,我正在使用 pdf 工具包 gem。 文档显示了如何使用 pdftotext pdftotext(文件,outfile = nil,&block)
我正在使用一个名为 pdftotext 的简单实用程序从 pdf 文件中提取文本。我发现在使用 -table 选项时它的输出最干净、最清晰,但是 此命令行选项仅适用于该实用程序的 Windows 版本
pdftotext 获取 PDF 文件并将文本转换为 .txt 文件。 我如何让 pdftotext 将结果发送到 PHP 变量而不是文本文件? 我假设我必须运行 exec('pdftotext/pa
是否可以调用 CLI 工具,如 pdftotext、antiword、catdoc(文本提取器脚本)传递字符串而不是文件? 目前,我阅读了使用 child_process.spawn 调用 pdfto
我写了一个小的 python 脚本来解析/提取 PDF 中的信息。我在我的本地机器上测试了它,我有 python 2.6.2 和 pdftotext 版本 0.12.4。 我正在尝试在我的虚拟主机服务
我正在使用 Python 库 pdftotext抓取 PDF 文件的文本。效果很好,但我需要命令行工具随 pdftotext -layout pdf_file.pdf 一起提供的“-layout”选项
我是一名优秀的程序员,十分优秀!