image - PDF:提取的图像被切片/平铺-6ren

image - PDF:提取的图像被切片/平铺

转载作者：行者123 更新时间：2023-12-01 09:55:46

25

4

使用 pdfimages 提取图像和 mupdf/mutool到目前为止工作正常。

使用 FreePDF 生成的 PDF 中的图像总是被切片，因此一个图像会生成多个图像文件。

有什么技巧可以避免这种情况吗？如何使用 pdfshow 的结果?
是否有坐标知道位置和高度和宽度
在将 PDF 转换为 PNG 或 JPEG 后剪切/裁剪图像？

最佳答案

您的图像在提取后被“切片”的最可能原因是: 在提取它们之前它们已经被“切片”了——作为它们在 PDF 文件中的生存方式。

不要问我为什么有些 PDF 生成软件会这样做。

MS Powerpoint 因这个而臭名昭著——显示一些渐变的背景图像经常被切成数万个 1x1 、 1x2 或 1x8 像素以及 PDF 中类似大小的迷你图像。

更新

1. 确定问题的范围

可以使用 pdfimages -list 命令识别示例 PDF 的图像片段(这需要基于 Poppler fork 的最新版本的 pdfimages，而不是 xpdf !):

pdfimages -list so-28023312-test1.pdf

page   num  type   width height color comp bpc  enc interp objectID x-ppi y-ppi size ratio
------------------------------------------------------------------------------------------
   1     0 image     271   271  rgb     3   8  jpeg   no       18 0   163   163 26.7K  12%
   1     1 image     271   271  rgb     3   8  jpeg   no       19 0   163   163 21.7K  10%
   1     2 image     271   271  rgb     3   8  jpeg   no       30 0   163   163 22.9K  11%
   1     3 image     271   271  rgb     3   8  jpeg   no       31 0   163   163 21.8K  10%
   1     4 image     132   271  rgb     3   8  jpeg   no       32 0   162   163 9895B 9.2%
   1     5 image     271   271  rgb     3   8  jpeg   no       33 0   163   163 22.5K  10%
   1     6 image     271   271  rgb     3   8  jpeg   no       34 0   163   163 16.5K 7.7%
   1     7 image     271   271  rgb     3   8  jpeg   no       35 0   163   163 16.9K 7.9%
   1     8 image     271   271  rgb     3   8  jpeg   no       36 0   163   163 20.3K 9.4%
   1     9 image     132   271  rgb     3   8  jpeg   no       37 0   162   163 14.5K  14%
   1    10 image     271   271  rgb     3   8  jpeg   no       20 0   163   163 17.1K 8.0%
   1    11 image     271   271  rgb     3   8  image  no       21 0   163   163  107K  50%
   1    12 image     271   271  rgb     3   8  image  no       22 0   163   163 96.7K  45%
   1    13 image     271   271  rgb     3   8  image  no       23 0   163   163  119K  56%
   1    14 image     132   271  rgb     3   8  jpeg   no       24 0   162   163 10.7K  10%
   1    15 image     271    99  rgb     3   8  jpeg   no       25 0   163   161 7789B 9.7%
   1    16 image     271    99  rgb     3   8  jpeg   no       26 0   163   161 6456B 8.0%
   1    17 image     271    99  rgb     3   8  jpeg   no       27 0   163   161 7202B 8.9%
   1    18 image     271    99  rgb     3   8  jpeg   no       28 0   163   161 8241B  10%
   1    19 image     132    99  rgb     3   8  jpeg   no       29 0   162   161 5905B  15%

因为1页上只有20个不同的片段，所以很容易...

...首先将它们全部提取并转换为JPEG，然后

...然后再次将它们缝合在一起。

2. 将片段提取为 JPEG

以下命令将提取片段并尝试将它们保存为 JPEG ( -j ) 28023312:

pdfimages so-28023312-test1.pdf 28023312

有 3 个图像以 PPM 形式出现。使用 ImageMagick 的 convert 从它们制作 JPEG(不是严格要求的，但它简化了“拼接”命令行:

for i in 11 12 13; do
  convert 28023312-0${i}.ppm 28023312-0${i}.jpg
done

这是前三个片段，280233312-000.jpg、280233312-001.jpg 和 280233312-002.jpg:

3.再次将20个片段缝合在一起

ImageMagick 可以再次将 20 张图像拼接在一起。在查看 PDF 页面以及 20 个 JPEG 时，很容易确定它们需要放在一起的顺序:

convert                                         \
   \( 28023312-0{00,01,02,03,04}.jpg +append \) \
   \( 28023312-0{05,06,07,08,09}.jpg +append \) \
   \( 28023312-0{10,11,12,13,14}.jpg +append \) \
   \( 28023312-0{15,16,17,18,19}.jpg +append \) \
 -append                                        \
  complete.jpg

剖析命令:

+append 图像运算符按水平顺序附加所有列出的图像。

\( ... \) 行表示对图像堆栈的相应部分(需要由转义括号分隔)的“aside”处理。这种水平追加操作的结果将替换当前图像堆栈中的各个片段。

最终的 -append 图像运算符垂直附加当前图像。

这是生成的 JPEG，再次完全拼接在一起:

Stitched together: final image

这可以自动化吗？

理论上我们可以自动化这个过程。为此，我们必须分析 PDF 源代码。然而，这相当困难，因为内容流可能被压缩。

为了解压缩所有或大部分内容流并更好地表示 PDF 文件结构，我们可以使用 mutool clean -d 、 podofouncompress 或 qpdf --qdf 。

我更喜欢 qpdf ，“结构化、内容保留的 PDF 文件转换器”。这是命令:

qpdf --qdf --object-streams=disable so-28023312-test1.pdf qdf.pdf

生成的 PDF 文件 qdf.pdf 更易于分析，因为大多数(但不是全部)以前的二进制部分现在是 ASCII。当你在这个文件中搜索 Do 的出现时，你会看到插入图像的位置(但是，我不能在这里给你一个完整的 PDF 分析教程，对不起......)。

以下命令打印出现 Do 的所有行，以及前一行 ( -B 1 ):

grep -a -B 1 " Do" qdf.pdf

1002 0 0 1002 236 5776.67 cm
/Im0 Do
--
1001 0 0 1002 1237 5776.67 cm
/Im1 Do
--
120.12 0 0 120.24 268.44 693.2004 cm
/Im2 Do
--
[...skipping 15 other output segments...]
--
1002 0 0 369 3237 3406.67 cm
/Im18 Do
--
490 0 0 369 4238 3406.67 cm
/Im19 Do
--
1 0 0 1 204.9037018 508.5130005 cm
/Fm0 Do

所有 /ImNN Do 行都插入图像( /Fm0 Do 行指的是表单对象而不是图像)。

前面的几行，例如 490 0 0 369 4238 3406.67 cm 设置了当前的转换矩阵。仅从这一行，有时就可以推断出图像的位置及其大小。在这个文件的情况下，这还不够——需要更多前面行的内容来确定当前的“绘图位置”。

关于image - PDF:提取的图像被切片/平铺，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/28023312/

25

4

0

文章推荐： java - 如何创建处理事件的方法？

文章推荐： java - Android 在复选框上振动

文章推荐： java - 在 if 语句中询问图像名称

文章推荐： java - 使用比较器和泛型 java 对链表进行排序

python - 平铺，在这种情况下如何使用递归？
我正在尝试制作一种能够解决拼贴问题中的大图 block 集的算法。现在它能够根据宽度和高度找到正确的 Tiles 来放置，但是在使其正确递归方面存在一些问题。如您所见，这个想法是，在放置的每个图 b
.net - MDIParent 平铺 child
有什么方法可以轻松地平铺 mdi parent 的所有表单 child 吗？我正在寻找 windows 提供的大部分功能，瓷砖级联。有谁知道一个简单的方法？最佳答案试试这些... // Tile
ImageMagick 将大图像裁剪为 xyz 平铺
我有一个大 jpg，其分辨率为 x * 256/x * 256。我想将此图像切割为 256x256 的图块，命名约定为 {zoom}-{x}-{y}.jpg。过去我使用 ZoomifyExpress
image - 使用ImageMagick重复或“平铺”图像
如何使用ImageMagick平铺图像？我认为我不能使用montage，因为我希望将列偏移原始图像高度的50％。展示我正在尝试做的事可能更容易：从...开始：结尾为：谢谢！最佳答案感谢Fr
xna - 平铺 2D 纹理以填充矩形
是否可以在 XNA 中平铺图像以使其填满整个矩形？我试过用谷歌搜索这个主题，但我找不到任何似乎有用的东西(虽然我可能遗漏了一些明显的东西)。我找到了 this MSDN page ，但我似乎无法让它工
graphics - 平铺 map 移动中的白色垂直线和不稳定的水平线
我无法找到答案，为什么我为图 block map 制作的图 block 表在使用 libGDX 在屏幕上移动时会创建垂直白线和不稳定的水平线。这是显示白色垂直线的视频:https://www.you
java - 平铺 Java 和视差
有谁知道 GitHub Java version of Tiled 中如何临时支持视差图层吗？工作正常吗？它可以编译，并且执行得很好。但是，如果我将图层设置为viewplane distance 0
java - 平铺 map 加载问题
在我制作的平台游戏中，我需要加载图 block 才能创建关卡，但在下面的代码中我似乎遇到了问题。它说我在这部分有一个错误: String[] skips = skip.split(" "); 但对我来
image - PDF:提取的图像被切片/平铺
使用 pdfimages 提取图像和 mupdf/mutool到目前为止工作正常。使用 FreePDF 生成的 PDF 中的图像总是被切片，因此一个图像会生成多个图像文件。有什么技巧可以避免这种情
java - 平铺 map 上的多平铺对象
我正在尝试使用 Tiled 编写基于 rts-like-tile 的游戏和 slick2d。我不知道如何处理多图 block 对象，例如建筑物，如何创建、保存等等。移动它们。最佳答案一种解决方案
Javascript 平铺 map 生成器
我想用一张图片来编写一个平铺 map 。它应该是一个 5x5 的小图片区域。我写了一些带有 2 个嵌套循环的 Javascript 代码。使用此解决方案，仅打印 1 张图片。当我在第二个循环中删除 b
Java - 平铺 map 对象
我正在尝试使用 Slick2D 和 Tiled Map Editor 制作一个基本的 2D 游戏。我已经弄清楚如何使用 TileProperties 进行基本的碰撞检测，但我不确定对象如何与 map
ios - 如何在启用分页的情况下实现 UIScrollView 平铺？
我正在尝试创建一个无限滚动的分页 UIScrollView 我一直在关注 Advanced UIScrollView Techniques来自 WWDC 2010 的视频，但是我不确定如何为分页 UI
css - 特殊页面背景 - 静态、平铺
好吧，假设我有一个像本网站一样的冷却平铺背景。 http://www.leeslights.com/colors-shapes-sizes-and-prices.html 我将如何使图像平铺到浏览器，
css - 如何创建网格/平铺 View ？
这个问题在这里已经有了答案: CSS-only masonry layout (5 个答案) 关闭 2 年前。
css - 如何创建网格/平铺 View ？
这个问题在这里已经有了答案: CSS-only masonry layout (5 个答案) 关闭 2 年前。
css - 如何创建网格/平铺 View ？
这个问题在这里已经有了答案: CSS-only masonry layout (5 个答案) 关闭 2 年前。
css - 如何创建网格/平铺 View ？
这个问题在这里已经有了答案: CSS-only masonry layout (5 个答案) 关闭 2 年前。
css - 如何创建网格/平铺 View ？
这个问题在这里已经有了答案: CSS-only masonry layout (5 个答案) 关闭 2 年前。
css - 如何创建网格/平铺 View ？
这个问题在这里已经有了答案: CSS-only masonry layout (5 个答案) 关闭 2 年前。

首页

博学

6Ren·AI

商城

image - PDF:提取的图像被切片/平铺