gpt4 book ai didi

python - 从 pdf 中删除一些图像和文本对象

转载 作者:太空狗 更新时间:2023-10-30 00:17:37 28 4
gpt4 key购买 nike

我有一个带有图像和大量文本的 pdf 页面对象。

我想删除该图像并根据其内容删除一些文本对象。那就是我想获取所有文本对象的内容,然后如果它们满足条件则删除其中的一些内容。

我如何使用 PyPDF2 做到这一点? ?或者是否有另一个库允许这样做?

最佳答案

要使用 PyPDF2 从 PDF 文件中删除所有图像,您可以执行以下操作:

from PyPDF2 import PdfFileWriter, PdfFileReader

inputStream = open("src.pdf", "rb")
outputStream = open("dst.pdf", "wb")

src = PdfFileReader(inputStream)
output = PdfFileWriter()

[output.addPage(src.getPage(i)) for i in range(src.getNumPages())]
output.removeImages()

output.write(outputStream)

关于python - 从 pdf 中删除一些图像和文本对象,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18913048/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com