java - 更改 PDF 然后删除更改时，恢复的文件和原始文件的哈希值不同-6ren

java - 更改 PDF 然后删除更改时，恢复的文件和原始文件的哈希值不同

转载作者：行者123 更新时间：2023-12-01 12:19:46

24

4

如果我访问 PDF 以使用代码在自定义属性中添加某些内容文件 src_2 = 新文件(embed_source); 文件 dest_2 = 新文件(embed_destination_2);

                    try {
                        FileUtils.copyFile(src_2, dest_2);
                    } catch (IOException e) {
                        e.printStackTrace();
                    }          
public void manipulatePdf(String src, String dest) throws IOException, DocumentException {
            PdfReader reader = new PdfReader(src);
            PdfStamper stamper = new PdfStamper(reader, new FileOutputStream(dest));
            Map<String, String> info = reader.getInfo();
            System.out.println(info.get("Lala"));

            stamper.setMoreInfo((HashMap<String, String>) info);
            stamper.close();
            reader.close();
        }

我没有更改 src 文件的任何内容，我所做的只是获取有关 src 文件的一些信息。但是，在运行程序之前和之后，我从 src 文件中得到了 2 个不同的哈希结果。我可以知道为什么吗？

最佳答案

如果您阅读过 ISO-32000-1，您应该知道没有两个 PDF 在设计上是相等的。两个 PDF 之间最典型的差异之一是 ID:

来自 ISO-32000-1:

ID: An array of two byte-strings constituting a file identifier.

来自第 14.4 节，标题为“文件标识符”:

The value of this entry shall be an array of two byte strings. The first byte string shall be a permanent identifier based on the contents of the file at the time it was originally created and shall not change when the file is incrementally updated. The second byte string shall be a changing identifier based on the file’s contents at the time it was last updated. When a file is first written, both identifiers shall be set to the same value. If both identifiers match when a file reference is resolved, it is very likely that the correct and unchanged file has been found. If only the first identifier matches, a different version of the correct file has been found.

如果您从头开始创建 PDF，则 ID 由两个相同的标识符组成。当您更新 PDF 以添加某些内容时，第一个 ID 会被保留，第二个 ID 会被更改。如果您更新 PDF 以删除该内容，则第二个 ID 会再次更改，但根据定义，它不应与第一个 ID 相同，因为您处于工作流程的不同部分。

注意:创建标识符相同的 PDF 的工具并不多。这是因为从头开始创建的 PDF 通常在最终版本保存到磁盘之前进行操作。只需使用 Adobe Acrobat 创建 PDF 即可重现此内容:您会注意到标识符对由两个不同的值组成。这使得询问:我们能否创建一个使第二个标识符与第一个标识符相同的情况？

此外:PDF 固有的特点是对象的组织方式是随机的。您使用哈希的用例违反了 PDF 标准。

如何解决这个问题？

您就是提出问题[如何] Add / delete / retrieve information from a PDF using a custom property 的人。

在回答这个问题时，我解释了如何将元数据添加到现有 PDF:

PdfStamper stamper = new PdfStamper(reader, new FileOutputStream(dest));

这将创建一个新的 PDF 文件，其中的对象将被重新排序。

但是，您可以将此行更改为:

PdfStamper stamper = new PdfStamper(reader, new FileOutputStream(dest), '\0', true);

现在您正在创建 PDF 文件的增量更新。

什么是增量更新？

假设您的原始 PDF 文件如下所示:

%PDF-1.4
% plenty of PDF objects and PDF syntax
%%EOF

当您使用 iText 操作此类文件时，您会得到一个更改的 PDF 文件:

%PDF-1.4
% plenty of altered PDF objects and altered PDF syntax
%%EOF

在此过程中，对象可以重新编号、重新组织等...如果您第一次添加一些内容，第二次删除一些内容，您可以预期 PDF 在打开时对于人眼来说看起来是一样的PDF 查看器中的文档，但您不应期望 PDF 语法相同。这种假设表明我们完全缺乏对 PDF 格式的洞察力。

但是，当您在附加模式下使用PdfStamper执行增量更新时，您将获得增量更新的PDF:

%PDF-1.4
% plenty of PDF objects and PDF syntax
%%EOF
% updates for PDF objects and PDF syntax
%%EOF

在这种情况下，原始 PDF 的原始字节不会更改。文件大小变得更大，因为您现在将拥有一些冗余信息(某些对象将不再使用，某些对象将拥有旧版本和新版本)，但使用增量更新的优点是您可以随时返回原始文件。

搜索倒数第二个出现的 %%EOF 并删除后面的所有字节就足够了，您将获得一个截断的 PDF 文件:

%PDF-1.4
% plenty of PDF objects and PDF syntax
%%EOF

您现在可以获取此截断的 PDF 文件的哈希值，并将其与原始 PDF 文件的哈希值进行比较。这些哈希值将是相同的。

警告:请注意 %%EOF 后面的空白字符。它们可能会在字节级别造成最小的差异，从而导致哈希值不同。

关于java - 更改 PDF 然后删除更改时，恢复的文件和原始文件的哈希值不同，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/26773266/

24

4

0

文章推荐： java - Hibernate 在充当主键的另一个实体上进行一对一映射

文章推荐： java - 输入字符串而不是 int 时抛出错误

文章推荐： java - 输入的完美数

文章推荐： java - 遍历 ArrayList java？

iPhone:删除/删除 SQLite 数据库？
我知道如何通过iPhone开发创建sqlite数据库、向其中插入数据、删除行等，但我试图以编程方式删除整个数据库本身，但没有得到任何帮助。请有人指导我如何通过代码从设备中删除/删除整个 sqlite
teradata - 删除/删除 Teradata 中的数据库
请帮助指导如何在 Teradata 中删除数据库。当我运行命令DROP DATABASE database_name时，我收到错误消息: *** Failure 3552 Cannot DROP d
azure - 删除/删除 Azure 警报规则
Azure 警报规则的删除命令似乎不起作用，尝试了下面的方法，它返回状态为无内容，并且警报未被删除使用的命令Remove-AzAlertRule -ResourceGroup "RGName"-Na
elasticsearch - Elasticsearch 数据丢失/删除/删除
我在 flex 搜索中为大约50000个视频建立了索引，但是当它达到52000左右时，所有数据都被删除。嗯，这对我来说真的很奇怪，我没有为ES设置任何Heap大小或最小或最大大小的内存大小，因此它们没
python - Django:删除/删除 slug
我正在处理的问题是表单错误“输入由字母、数字、下划线或连字符组成的有效‘slug’。” 以下是我的表单字段验证: def clean_slug(self): slug = self.c
jQuery 删除 : $ ("..."). 删除() 与 .remove ("...")
阅读文档，我希望 $("#wrap2").remove(".error") 从中删除所有 .error 元素#wrap2。然而看看这个 JSFiddle: http://jsfiddle.net/h
php - 删除/删除 laravel 项目
嗨，我第一次尝试发现 laravel 我从 laravel 4.2 开始，我刚刚创建了一个新项目，但我误以为我写了这样的命令行 composer create-project laravel/lara
Apache 2.4 - 删除 |删除 |卸载
我已经在网上搜索了很长一段时间，但我找不到如何完全删除 apache 2.4 。使用: Windows 7 c:\apache24\ 我已经尝试了所有命令，但没有任何效果。 httpd -k shu
python - 删除/删除 pandas DataFrame 中任意列中具有特定字符串的行
可能是一个简单的答案，所以提前道歉(最少的编码经验)。我正在尝试从任何列中删除具有特定字符串(经济 7)的任何行，并且一直在尝试离开此线程: How to drop rows from pandas
c++ - 删除/删除 vector 项的最有效/最快的方法
有几种方法可以删除/移除 vector 中的项目。我有一个指针 vector ，我需要在类的析构函数中删除所有指针。什么是最有效/最快甚至最安全的方式？ // 1º std::for_each(v
linux - 删除 xinetd 导致 plesk 删除
我安装了一个 VNC 服务器并在某处阅读了我必须安装 xinetd 的信息。稍后我决定删除 VNC 服务器，所以我也删除了 xinetd。似乎 xinetd 删除了一些与 plesk 相关的文件，如果
android - 如何完全杀死/删除/删除/停止 AsyncTask
我制作了一个从我们的服务器下载视频的应用。问题是: 当我取消下载时，我打电话: myAsyncTask.cancel(true) 我注意到，myAsyncTask 并没有在调用取消时停止...我的 P
machine-learning - 删除/删除 Vertica 中的机器学习模型(如果存在)
是否可以在使用DELETE_MODEL删除模型之前检查模型是否存在我试图避免在尝试删除尚未创建的模型时收到错误消息。基本上我正在寻找对应的: DROP TABLE IF EXISTS 但对于模型。最
php - 如何使用 php 删除/删除 mySQL 中的特定表行？
我已经有了这个代码: 但它仍然会生成一个表行条目。我想做的是，当输入的数量为0时，表行将被删除。请耐心等待，因为我是 php 和 mySQL 编码新手。最佳答案您忘记执行查询。应该是 $que
c# - 删除 EWS 中的 Exchange 事件修改/删除(即恢复事件)
在 SharePoint 中，如果您删除/修改重复日历条目的单次出现，则不会真正删除/修改任何内容 - 相反，会创建一个新条目，告诉 SP 对于特定日期，该事件不存在或具有新参数. 因此，这可以通过删
javascript - Laravel 5.2 & Dropzone.js - 删除(删除)上传的图片
在 routes.php 中我有以下路由: Route::post('dropzone', ['as' => 'dropzone.upload', 'uses' => 'AdminPhotoContr
Node.JS app.get 错误..无法获取/删除/删除/15
在我的应用程序中，我正在尝试删除产品。当我第一次删除产品时，它会成功并且 URL 更改为/remove_category/15。我正在渲染到同一页面。现在，当我尝试删除另一个产品时，网址更改为/rem
bash - 匹配后如何使用 BSD/OS X sed 删除/删除 X 行
这个问题被问了很多次，但给出的答案都是 GNU sed 特定的。 sed -i '' "/${FIND}/,+2d""$FILE" 给出“预期的上下文地址”错误。有人可以给我一个例子，说明如何使用
javascript - Google Maps JavaScript API V3 - 卸载/解构/删除/删除
在使用 V3 API 时，我找不到任何方法来删除和清理 Google map 。我已经在 AJAX 站点中运行它，所以我想完全关闭它而无需重新加载页面。我希望有一个 .unload() 或 .de
sql-server - 如何创建一个可以创建/更改/删除 View 但不能表、可以读取数据但不能插入/更新/删除/截断数据的 Azure SQL 数据库用户？
是否可以创建一个 Azure SQL 数据库用户来执行以下操作: 针对所有表和 View 进行 SELECT 创建/更改/删除 View 但用户不应该不拥有以下权限: 针对任何表或 View 插入/更

首页

博学

6Ren·AI

商城

java - 更改 PDF 然后删除更改时，恢复的文件和原始文件的哈希值不同