作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在使用 Python 库 pdftotext抓取 PDF 文件的文本。效果很好,但我需要命令行工具随 pdftotext -layout pdf_file.pdf
一起提供的“-layout”选项。如果不必在我的代码中显式使用该命令,我不确定这是否可行。
实际代码:
pdf = pdftotext.PDF(file)
plain_text = "\n\n".join(pdf)
具有更好抓取布局选项的理想代码:
pdf = pdftotext.PDF(file, "-layout")
plain_text = "\n\n".join(pdf)
我想在 Python 程序中避免的解决方法:
cmd = ['pdftotext', '-f', str(1), '-l', str(1), str(pdf_file), '-layout', '-']
谢谢!
最佳答案
with open("file.pdf", "rb") as f:
pdf=pdftotext.PDF(f,physical=True)
Inside the code found:
" raw: If True, page text is output in the order it appears in the\n"
" content stream.\n"
" physical: If True, page text is output in the order it appears
关于python - 如何在 Python 中使用带有 "-layout"选项的 pdftotext 库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/67106225/
我是一名优秀的程序员,十分优秀!