- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我的(网络)应用程序的设置如下:我获取用户上传的 PDF 文件,我对它们运行 OCR 并向他们展示 OCRed PDF。由于一切都在线,因此最小化生成的 PDF 文件的大小是减少用户加载和等待时间的关键。
我从用户那里收到的文件是 sample.pdf (我已经使用原始文件以及我在此处生成的文件创建了一个存档: https://dl.dropboxusercontent.com/u/1390155/tess-files/sample.zip )。我使用tesseract 3.04并执行以下操作:
gs -r300 -sDEVICE=tiff24nc -dBATCH -dNOPAUSE -sOutputFile=sample.tiff sample.pdf
tesseract sample.tiff sample-tess -l fra -psm 1 pdf
gs -o sample-down-300.pdf -sDEVICE=pdfwrite -dDownsampleColorImages=true \
-dDownsampleGrayImages=true -dDownsampleMonoImages=true \
-dColorImageResolution=300 -dGrayImageResolution=300 \
-dMonoImageResolution=300 -dColorImageDownsampleThreshold=1.0 \
-dGrayImageDownsampleThreshold=1.5 -dMonoImageDownsampleThreshold=1.0 \
sample-tess.pdf
gs -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/ebook \
-dNOPAUSE -dBATCH -dQUIET -sOutputFile=sample-ebook.pdf \
sample-tess.pdf
convert -density 300 sample.pdf -transparent white sample.png
tesseract sample.png sample-tess-png -l fra -psm 1 pdf
最佳答案
问题 1,我看不到任何“附加”的文件,所以我在黑暗中猜测。
PDF 中没有“文本层”或“图像层”,PDF 可能有层,但它们是独立的。文本和图像“按原样”嵌入文件中。当然,将 PDF 渲染为 TIFF 图像的结果确实会生成单个图像文件。
原始 PDF 将文本存储为文本,使用字体,TIFF 文件将全部呈现为图像。我不确定 tesseract 究竟是如何工作的,如果没有它的输出示例,我无法确定,但我希望它所做的是在输出 PDF 文件中保持渲染图像完好无损,并使用渲染模式 3 添加文本(既不描边或填充,即不可见)。这就是您在上面描述的“MCR”。
这对您来说意味着原始 PDF 很小,因为大部分(可能是全部)内容都被描述为矢量数据。生成的 TIFF 文件很大,因为它是一个完整的页面位图,使用矢量表示获得的节省已经丢失。然后将其转换为 PDF(仍然很大),然后将更多文本和字体添加到文档中,这当然只会增加其大小。
实际上,唯一会对该文件的大小产生重大影响的事情是减小位图图像的大小,即用于创建最终输出 PDF 的 TIFF 文件。
在渲染到 TIFF 和 OCR 之前弄乱原始 PDF 文件似乎不太可能对最终的 PDF 文件大小产生任何影响(警告;压缩可能效果更好,因为可能有更多的“平面”颜色区域)
没有看到原始文件和最终文件,我真的不能说更多,而且我无法自己测试它(我没有安装 Tesseract)但在我看来唯一真正的解决方案是在创建最终输出 PDF 文件之前让 Tesseract 对图像进行下采样。
关于pdf - 如何减小tesseract生成的PDF的大小?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26775306/
我是 R 新手,我正在使用 glmer 来拟合几个二项式模型,我只需要它们来调用 predict使用得到的概率。但是,我有一个非常大的数据集,即使只有一个模型的大小也会变得非常大: > library
我有一个包含数百个项目的直方图,我为其绘制了 Q-Q 图。这导致 EPS 大小为 2.5 兆字节。对于仅包含在出版物中并且不会以 100 倍放大倍率查看的图形来说,这太大了。 R 中是否有任何选项可以
我有一个 。 mp4 文件大小为 的视频540kb 并且在转换之前的持续时间为 30 秒,但是当我使用 时ffmpeg 将其转换为文件大小变为 21mb .我需要添加哪些选项才能将文件大小减小到小于
因此,我们有一个非常庞大且复杂的网站,需要在 URL 中放置大量状态信息。大多数时候,这只是桃子,应用程序运行良好。但是,有(越来越多的)URL 长度变得非常长的实例。由于 URL 长度限制,这会在
有没有办法减少分组 UITableViewCell 的标准宽度并将自定义按钮放在左侧(单元格边界之外)?我尝试更改单元格大小,但它保持不变 最佳答案 你将不得不伪造编辑模式。我的意思是,正如 Atom
我的项目中有大约 1000 张图像,图像总大小约为 400MB。我正在使用此图像在 MAc 上显示缩略图。 构建 xcode 后,我的应用程序构建大小为 410MB。我正在使用 NSImage ima
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。 这个问题似乎不是关于 a specific programming problem, a software
当我编译我的 Snap 时webapp(将其部署到生产服务器),结果为 19MB!是什么赋予了?这是正常的吗?我做错了什么吗? 我的网站只有3个静态页面,基本上是snap's init project
在我们的项目中,我们决定通过使用预构建的二进制文件来减少构建时间。我们每周/每月创建一个稳定版本并将其提交到存储库。构建使用这些二进制文件,而不是从源代码构建所有内容。 对于构建速度来说,这太棒了。但
我必须创建一个自定义 jdialog,但我希望它小一点。它不应该有空白空间。下面的代码给了我这个: 如果我使用 setSize 减小大小,则会导致如下所示的错误 GUI: class Find ext
这个问题已经有答案了: pyplot: Can I set a global marker size parameter? (1 个回答) How to make markers on lines s
我正在尝试在列表中聚合使用 rpart::rpart 构建的多个 CART 模型。 我刚刚意识到每个模型在 $terms 和 $where 中存储了大量(元?)数据(在我的例子中每个模型超过 10MB
当我使用 scaledToHeight 调整 QPixmap 的大小,然后将其转换为 QByteArray 时,此 ByteArray 的大小恰好是未缩放 QPixmap 的 ByteArray 的大
有没有办法设置图形的 YSTEP? 我们正在尝试显示包含以下数据的图表 g = new Dygraph( document.getElementById("graph"),
我创建了一个 xib,其中一个单元格包含 UIImageView。 imageview 具有前导、尾随、顶部、底部约束。 xib为4kb,文件大小为4kb。我以编程方式创建了另一个具有相同约束和对象的
我正在尝试将图像大小减小到小于 64000 字节这是我的代码和日志。 NSData *beforeData = UIImageJPEGRepresentation(self.photo, 1.
我正在使用 OpenSSL-for-iPhone生成我可以与库一起使用的 OpenSSL 的自编译版本 RMStoreAppReceiptVerifier用于收据验证。具体来说,它构建了 OpenSS
我目前正在按照本指南制作多标签图像分类模型(它使用初始模型作为基础模型):https://towardsdatascience.com/multi-label-image-classification
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 这个问题似乎是题外话,因为它缺乏足够的信息来诊断问题。 更详细地描述您的问题或include a min
我的 HTML 页面中有宽度超过 250 像素的下拉菜单。 我需要更改下拉菜单的字体大小以减小宽度。 我尝试使用如下字体标签: . . . 以
我是一名优秀的程序员,十分优秀!