gpt4 book ai didi

python - 使用 Python 搜索和替换 PDF 中的占位符文本

转载 作者:太空狗 更新时间:2023-10-29 21:36:29 34 4
gpt4 key购买 nike

我需要生成模板文档的自定义 PDF 副本。最简单的方法 - 我认为 - 是创建一个源 PDF,其中包含一些需要进行自定义的占位符文本,即 <first_name><last_name> ,然后将它们替换为正确的值。

我到处搜索,但真的没有办法基本上采用源模板 PDF,用实际值替换占位符并写入新的 PDF 吗?

我查看了 PyPDF2 和 ReportLab,但似乎都无法做到。有什么建议么?我的大部分搜索都会导致使用 Perl 应用程序 CAM::PDF,但我更愿意将其全部保留在 Python 中。

最佳答案

没有直接的方法可以可靠地执行此操作。 PDF 与 HTML 不同:它们逐个字符地指定文本的位置。它们甚至可能不包括用于呈现文本的整个字体,仅包括呈现文档中特定文本所需的字符。我发现没有图书馆会做一些好的事情,比如在更新文本后重新换行段落。 PDF 在很大程度上是一种仅供显示的格式,因此与就地更新 PDF 相比,使用将标记转换为 PDF 的工具要好得多。

如果这不是一个选项,您可以创建一个 PDF form在类似 Acrobat 的软件中,然后使用像 iText (AGPL) 这样的 PDF 操作库或 pdfbox ,它有一个很好的 clojure 包装器,叫做 pdfboxing可以处理其中的一些。

根据我的经验,Python 对写入 PDF 的支持非常有限。到目前为止,Java 拥有最好的语言支持。此外,一分钱一分货,因此如果您将其用于商业目的,可能值得为 iText 许可证付费。我在围绕 pdfboxing 和 ghostscript 等 PDF 操作 CLI 工具编写 python 包装器方面取得了不错的成绩。对于您的用例来说,这可能比尝试将其硬塞进 Python 的 PDF 生态系统要容易得多。

关于python - 使用 Python 搜索和替换 PDF 中的占位符文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39712828/

34 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com