gpt4 book ai didi

java - 如何顺利地为已有的PDF文档添加内容?

转载 作者:行者123 更新时间:2023-11-29 03:49:17 24 4
gpt4 key购买 nike

要求是:我有一个现有的 PDF 文档。我想在 PDF 文档的开头(第一页)插入一段内容摘要。

我正在使用 itext2.1.5 库导入现有的 PDF 文档并执行插入操作。我已经有了解决方案,但不是很满意。 我目前的做法是把现有的第一页缩小,这样看起来更小,占用的空间也更少,然后把新的段落放在上面。但是客户对这个解决方案并不满意,他们认为整个新PDF文档的字体大小不一致(第一页的字体大小看起来比其他页面的小,因为缩小了)。

所以我想知道是否有更好的方法来实现这个目标,即像在 Word 文档中那样顺利地将一些内容插入现有的 PDF 中?

谢谢!

编辑:为什么我得到了反对票?

最佳答案

实际上没有任何实用的方法可以做到这一点。与任何类型的文档一样,理论上可以对 PDF 进行任何更改,但这样做就像在没有源代码的情况下尝试调试程序;即使是目标代码中的微小变化也会迫使您移动所有内容,并且您必须编辑各种并非设计为人类可编辑的内容,因此实际上,唯一的解决方案是制作修改源代码,然后重新编译。

PDF 是 page description language ;它的目的是准确地指定页面的外观,而且它必须在如此令人难以忍受的细节中做到这一点,以至于每个平台上的每个 PDF 阅读器都将产生完全相同的产品。这不仅包括页面内容(文本、图像等)和格式(哪些文本加粗、哪些居中等),还包括字体本身、每个对象的确切 XY 坐标以及各种其他这些细节是如此神秘,以至于我只能猜测它们可能是什么,除非他们正在创作 PDF 阅读器,否则任何人都不应该处理这些细节。

要将一段文本添加到现有 PDF,您必须了解其中的每一个细节,并且必须重新计算其中的大部分内容以容纳额外的段落。这除了让人头脑 NumPy 之外,还需要重新发明大量重要的逻辑来弄清楚页面上所有内容的确切位置。

这不值得。

如果您要处理的所有文档都具有完全相同的布局,并且您有一个模板或能够创建类似的模板,那么您可以通过编程方式从 PDF 中提取文本内容,使用它加上您的新段落以填充模板,然后将其呈现为 PDF。对于第一步(提取文本),Apache PDFBox ,一个用于处理 PDF 文档的开源 Java 库,是一个流行的选择。

如果文档完全不同,那么您将不得不坚持让您的客户以透明格式向您提供文档;也就是说,它描述了文档的内容和格式,而不是如何准确呈现它的细节。您可以在功能齐全的文字处理器(纯文本、富文本格式、OpenDocument、Office Open XML)中编辑的任何内容都符合条件。所有这些格式都存在 Java 库(尽管我不知道它们有多好),并且 Microsoft Word 和 LibreOffice 都支持它们,因此您的客户可能首先以其中一种格式创建了文档。

关于java - 如何顺利地为已有的PDF文档添加内容?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9509411/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com