gpt4 book ai didi

python - 获取包含图像的 PDF 页面

转载 作者:太空宇宙 更新时间:2023-11-03 19:05:02 25 4
gpt4 key购买 nike

我正在寻找一种编程解决方案来查找所有包含至少一张图像的页面(例如其页码)。我不需要图像本身,我只需要页码。首选 shell 脚本解决方案或 python 解决方案,但有助于完成此任务的所有内容都可以。

背景:我正在对 PDF 进行 OCR 处理,我需要知道在哪些页面上运行 OCR 有意义。

最佳答案

一种解决方案是使用 pdfimages,这是来自 poppler-utils 包的实用程序。它可以输出pdf中存储的图像的一些信息:

$ pdfimages -list file.pdf
page num type width height color comp bpc enc interp object ID
---------------------------------------------------------------------
1 0 image 200 197 rgb 3 8 jpeg no 7 0

页码是逐一的(从1开始计数),identify(来自ImageMagik包)可以显示所有页码:

$ identify -format '%p ' file
0 1 2 3

从这两个命令可以看出,第 2、3、4 页不包含图像,而第 1 页包含图像。

关于python - 获取包含图像的 PDF 页面,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14977038/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com