gpt4 book ai didi

python - 在 Python 中将 PDF 文件转换为文本文件

转载 作者:行者123 更新时间:2023-11-28 19:12:16 25 4
gpt4 key购买 nike

我已经用了好几天了 + 在互联网上研究如何从 pdf 文件中获取特定信息。

最终我能够使用 Python 从一个文本文件中获取所有信息(我通过转到 PDF 文件 -----> 文件 ------> 另存为文本).

问题是我如何让 Python 完成这些任务(转到 PDF 文件(打开它 - 很容易打开(“文件路径”),单击菜单中的文件,然后将文件另存为同一目录中的文本文件)。

明确一点,我不需要 pdfminer 或 pypdf 库,因为我已经使用相同的文件提取了信息(在手动将其转换为 txt 之后)

最佳答案

您可以使用可以从 http://www.foolabs.com/xpdf/download.html 下载的 pdftotext.exe然后通过 Python 在您的 pdf 文件上执行它:

import os
import glob
import subprocess

#remember to put your pdftotxt.exe to the folder with your pdf files
for filename in glob.glob(os.getcwd() + '\\*.pdf'):
subprocess.call([os.getcwd() + '\\pdftotext', filename, filename[0:-4]+".txt"])

至少它对我的一个项目有用。

关于python - 在 Python 中将 PDF 文件转换为文本文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38496026/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com