pdf - 如何减小tesseract生成的PDF的大小？-6ren

pdf - 如何减小tesseract生成的PDF的大小？

转载作者：行者123 更新时间：2023-12-04 15:43:48

25

4

我的(网络)应用程序的设置如下:我获取用户上传的 PDF 文件，我对它们运行 OCR 并向他们展示 OCRed PDF。由于一切都在线，因此最小化生成的 PDF 文件的大小是减少用户加载和等待时间的关键。

我从用户那里收到的文件是 sample.pdf (我已经使用原始文件以及我在此处生成的文件创建了一个存档: https://dl.dropboxusercontent.com/u/1390155/tess-files/sample.zip )。我使用tesseract 3.04并执行以下操作:

gs -r300 -sDEVICE=tiff24nc -dBATCH -dNOPAUSE -sOutputFile=sample.tiff sample.pdf
tesseract sample.tiff sample-tess -l fra -psm 1 pdf

OCR 的结果不错，但是现在生成的 PDF 的大小是原来的 2.5 倍左右

原始pdf文件的大小:60k

最终 pdf 的大小:147K

所以我问你，如何在保持OCR结果的同时减小生成的PDF的大小？

一个明显的解决方案是在生成 tiff 时降低分辨率，但我不想这样做，因为它可能会影响 OCR 结果。

我尝试的第二件事是使用 ghostscript 减少超立方体后的 PDF 大小:

gs -o sample-down-300.pdf   -sDEVICE=pdfwrite   -dDownsampleColorImages=true \
   -dDownsampleGrayImages=true   -dDownsampleMonoImages=true  \
   -dColorImageResolution=300   -dGrayImageResolution=300  \
   -dMonoImageResolution=300   -dColorImageDownsampleThreshold=1.0  \
   -dGrayImageDownsampleThreshold=1.5   -dMonoImageDownsampleThreshold=1.0 \
    sample-tess.pdf

这有点帮助，生成的文件只有 101K，大约是原始文件的 1.5 倍。我可以接受，但它似乎也会影响 OCR 结果。例如，现在缺少“RESTAURANT”和“PIZZERIA”(第二行)之间的空白。

另一个(更简单的)ghostscript 选项，使用 ebook 参数，导致 43k 文件在 PDF 中质量较差，并且出现同样的缺失空格问题:

gs -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/ebook \
    -dNOPAUSE -dBATCH  -dQUIET -sOutputFile=sample-ebook.pdf \
     sample-tess.pdf

质量较差的 PDF 很好，但同样，我真的不想在 OCR 上妥协。

我已经使用 PNG 和 JPEG 进行了其他测试，但 OCR 结果总是下降(甚至轻微)并且生成的 PDF 并不小。例如，对于 PNG:

convert -density 300 sample.pdf -transparent white sample.png
tesseract sample.png sample-tess-png -l fra -psm 1 pdf

总数 (55.50) 缺失，最终 PDF 大小为 149k。

总而言之，这里是我的问题:

有人可以解释为什么使用
ghostscript 会影响 OCR 结果吗？我认为文本层和
图像层是独立的...

是否有可供选择的选项
tesseract 在生成图像时降低图像质量
PDF？

我读到其他解决方案，如 ABBYY OCR 使用混合光栅化
减少文件大小的内容 (MRC)。 tesseract 会这样做吗
已经？如果没有，是否有一些开源或专有的 CLI 工具
这样做，我可以用它来减少tesseract生成的PDF
文件？

同样，我可以妥协 PDF 图像的质量(尽管我希望保留颜色，理想情况下)，只要用户可以搜索文本并选择它从 PDF 复制/粘贴。

非常感谢任何帮助!

最佳答案

问题 1，我看不到任何“附加”的文件，所以我在黑暗中猜测。

PDF 中没有“文本层”或“图像层”，PDF 可能有层，但它们是独立的。文本和图像“按原样”嵌入文件中。当然，将 PDF 渲染为 TIFF 图像的结果确实会生成单个图像文件。

原始 PDF 将文本存储为文本，使用字体，TIFF 文件将全部呈现为图像。我不确定 tesseract 究竟是如何工作的，如果没有它的输出示例，我无法确定，但我希望它所做的是在输出 PDF 文件中保持渲染图像完好无损，并使用渲染模式 3 添加文本(既不描边或填充，即不可见)。这就是您在上面描述的“MCR”。

这对您来说意味着原始 PDF 很小，因为大部分(可能是全部)内容都被描述为矢量数据。生成的 TIFF 文件很大，因为它是一个完整的页面位图，使用矢量表示获得的节省已经丢失。然后将其转换为 PDF(仍然很大)，然后将更多文本和字体添加到文档中，这当然只会增加其大小。

实际上，唯一会对该文件的大小产生重大影响的事情是减小位图图像的大小，即用于创建最终输出 PDF 的 TIFF 文件。

在渲染到 TIFF 和 OCR 之前弄乱原始 PDF 文件似乎不太可能对最终的 PDF 文件大小产生任何影响(警告；压缩可能效果更好，因为可能有更多的“平面”颜色区域)

没有看到原始文件和最终文件，我真的不能说更多，而且我无法自己测试它(我没有安装 Tesseract)但在我看来唯一真正的解决方案是在创建最终输出 PDF 文件之前让 Tesseract 对图像进行下采样。

关于pdf - 如何减小tesseract生成的PDF的大小？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/26775306/

25

4

0

文章推荐： abap - 表表达式的最佳实践 (NW 7.4)

文章推荐： bash - 无法在 AWS sagemaker 上安装 "ipywidgets"Jupyter Lab Extension

文章推荐： codenameone - 将按钮添加到 ToastBar 组件

文章推荐： json - 用 JSON 或其他东西在网页中生成 POSTMAN

减小 glmer 模型大小
我是 R 新手，我正在使用 glmer 来拟合几个二项式模型，我只需要它们来调用 predict使用得到的概率。但是，我有一个非常大的数据集，即使只有一个模型的大小也会变得非常大: > library
减小 EPS 格式的绘图大小
我有一个包含数百个项目的直方图，我为其绘制了 Q-Q 图。这导致 EPS 大小为 2.5 兆字节。对于仅包含在出版物中并且不会以 100 倍放大倍率查看的图形来说，这太大了。 R 中是否有任何选项可以
php - 减小 ffmpeg 转换视频的文件大小
我有一个。 mp4 文件大小为的视频540kb 并且在转换之前的持续时间为 30 秒，但是当我使用时ffmpeg 将其转换为文件大小变为 21mb .我需要添加哪些选项才能将文件大小减小到小于
url - 减小 URL 大小的方法？
因此，我们有一个非常庞大且复杂的网站，需要在 URL 中放置大量状态信息。大多数时候，这只是桃子，应用程序运行良好。但是，有(越来越多的)URL 长度变得非常长的实例。由于 URL 长度限制，这会在
iphone - 减小 UITableViewCell 宽度并将自定义按钮放在左侧
有没有办法减少分组 UITableViewCell 的标准宽度并将自定义按钮放在左侧(单元格边界之外)？我尝试更改单元格大小，但它保持不变最佳答案你将不得不伪造编辑模式。我的意思是，正如 Atom
xcode - 减小 cocoa 应用程序中图像的大小
我的项目中有大约 1000 张图像，图像总大小约为 400MB。我正在使用此图像在 MAc 上显示缩略图。构建 xcode 后，我的应用程序构建大小为 410MB。我正在使用 NSImage ima
excel - 减小 Excel 文件大小
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。这个问题似乎不是关于 a specific programming problem, a software
haskell - 减小 Snap 二进制文件的大小？
当我编译我的 Snap 时webapp(将其部署到生产服务器)，结果为 19MB!是什么赋予了？这是正常的吗？我做错了什么吗？我的网站只有3个静态页面，基本上是snap's init project
svn - 减小 .svn 文件夹的大小
在我们的项目中，我们决定通过使用预构建的二进制文件来减少构建时间。我们每周/每月创建一个稳定版本并将其提交到存储库。构建使用这些二进制文件，而不是从源代码构建所有内容。对于构建速度来说，这太棒了。但
java - 减小 jdialog 的大小
我必须创建一个自定义 jdialog，但我希望它小一点。它不应该有空白空间。下面的代码给了我这个: 如果我使用 setSize 减小大小，则会导致如下所示的错误 GUI: class Find ext
python - 减小 matplotlib 图中的点大小
这个问题已经有答案了: pyplot: Can I set a global marker size parameter? (1 个回答) How to make markers on lines s
R:减小 rpart 对象的大小
我正在尝试在列表中聚合使用 rpart::rpart 构建的多个 CART 模型。我刚刚意识到每个模型在 $terms 和 $where 中存储了大量(元？)数据(在我的例子中每个模型超过 10MB
c++ - 减小 QPixmap 的文件大小
当我使用 scaledToHeight 调整 QPixmap 的大小，然后将其转换为 QByteArray 时，此 ByteArray 的大小恰好是未缩放 QPixmap 的 ByteArray 的大
javascript - 减小 Y 轴的步长
有没有办法设置图形的 YSTEP？我们正在尝试显示包含以下数据的图表 g = new Dygraph( document.getElementById("graph"),
ios - 减小 IOS 中的应用程序大小
我创建了一个 xib，其中一个单元格包含 UIImageView。 imageview 具有前导、尾随、顶部、底部约束。 xib为4kb，文件大小为4kb。我以编程方式创建了另一个具有相同约束和对象的
ios - 减小 UIImage 大小不起作用
我正在尝试将图像大小减小到小于 64000 字节这是我的代码和日志。 NSData *beforeData = UIImageJPEGRepresentation(self.photo, 1.
ios - 减小 OpenSSL 二进制文件的大小？
我正在使用 OpenSSL-for-iPhone生成我可以与库一起使用的 OpenSSL 的自编译版本 RMStoreAppReceiptVerifier用于收据验证。具体来说，它构建了 OpenSS
python - 减小 TFLite 模型大小？
我目前正在按照本指南制作多标签图像分类模型(它使用初始模型作为基础模型):https://towardsdatascience.com/multi-label-image-classification
javascript - 减小 OnsenUI 的大小
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。这个问题似乎是题外话，因为它缺乏足够的信息来诊断问题。更详细地描述您的问题或include a min
html - 减小 HTML 中下拉菜单的字体大小
我的 HTML 页面中有宽度超过 250 像素的下拉菜单。我需要更改下拉菜单的字体大小以减小宽度。我尝试使用如下字体标签: . . . 以

首页

博学

6Ren·AI

商城

pdf - 如何减小tesseract生成的PDF的大小？