gpt4 book ai didi

perl - 如何修复损坏的/'nonconformance to standards' PDF

转载 作者:行者123 更新时间:2023-12-02 09:07:36 24 4
gpt4 key购买 nike

我正在使用 Perl 构建一个 Web 应用程序。用户向我发送了一个 XML 文件,其中包含对许多 PDF 文档的引用。我使用 XSLT 将 XML 转换为 XHTML,然后使用 PrinceXML 从 XHTML 创建 PDF 文档。此 PDF 为将要包含的附件​​保留了带有页眉和页脚的空白页面。

获得 PDF 后,我使用 PDF::API2 Perl 模块逐一打开 XML 中引用的 PDF 文档,根据需要缩放和旋转页面,然后将它们包含在我创建的 PDF 文档中.

我的问题是,许多用户提交的 PDF 都以某种方式损坏了。即,它们不符合 Adob​​e 的 PDF 规范,并且 PDF::API2 不知道如何操作它们。 PDF::API2 文档建议使用 pdftk 来修复损坏的 PDF,但这通常需要很长时间,并且在许多情况下并不成功。

修复此类损坏的 PDF 的最佳方法是什么?

最佳答案

您在这里提倡的有时被称为“重新煎炸 PDF”:转换为 PostScript,然后再转换回 PDF。

但是,虽然这可能会解决一些使用其他方法可能无法轻松解决的问题,但您还应该意识到此过程中经常出现的问题和缺点:

  • PostScript 的图形功能比 PDF 更有限。 PDF 添加了对真实透明度、更多色彩空间、ICC 颜色配置文件和更多字体类型的支持——PostScript 中不提供这些功能。 (事实上​​,向原始 PostScript 图形模型添加此类功能的需求正是 Adob​​e 开始开发 PDF 文件格式的动机之一!)

  • 因此,从 PDF 转换为 PostScript 必然会导致质量下降,而在转换回 PDF 时,这种情况将无法恢复。

但是,您可以尝试另一种替代方法,它可以避免重新油炸的弯路:

  • 借助 Ghostscript 直接转换 PDF -> PDF:

    gs                        \
    -o output.pdf \
    -dPDFSETTINGS=/prepress \
    -sDEVICE=pdfwrite \
    input.pdf

请使用可用的最新 Ghostscript 版本。

Ghostscript 有很多选项,您可以使用它们来控制 PDF 修复过程的各个方面。在不了解您的具体问题的情况下,我无法在这里更具体。

但是在过去的10年里我还没有遇到过很多Ghostscript无法修复的PDF问题,而通过Acroread重新编译就可以做到(虽然也有一些)。 OTOH,我还有很多 Acroread 的重新油炸没有成功的例子,而 Ghostscript 的 PDF -> PDF 却成功了......

关于perl - 如何修复损坏的/'nonconformance to standards' PDF,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12307204/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com