gpt4 book ai didi

python - 如何在 Python 中使用带有 "-layout"选项的 pdftotext 库

转载 作者:行者123 更新时间:2023-12-05 06:47:28 24 4
gpt4 key购买 nike

我正在使用 Python 库 pdftotext抓取 PDF 文件的文本。效果很好,但我需要命令行工具随 pdftotext -layout pdf_file.pdf 一起提供的“-layout”选项。如果不必在我的代码中显式使用该命令,我不确定这是否可行。

实际代码:

pdf = pdftotext.PDF(file)
plain_text = "\n\n".join(pdf)

具有更好抓取布局选项的理想代码:

pdf = pdftotext.PDF(file, "-layout")
plain_text = "\n\n".join(pdf)

我想在 Python 程序中避免的解决方法:

cmd = ['pdftotext', '-f', str(1), '-l', str(1), str(pdf_file), '-layout', '-']

谢谢!

最佳答案

with open("file.pdf", "rb") as f:
pdf=pdftotext.PDF(f,physical=True)

Inside the code found:
" raw: If True, page text is output in the order it appears in the\n"
" content stream.\n"
" physical: If True, page text is output in the order it appears

关于python - 如何在 Python 中使用带有 "-layout"选项的 pdftotext 库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/67106225/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com