gpt4 book ai didi

xml - PDF 到 XML 并再次返回 PDF

转载 作者:数据小太阳 更新时间:2023-10-29 02:22:24 24 4
gpt4 key购买 nike

我最近问了一个关于将 PDF 文件变成 XML 文件然后将其返回到 PDF 文件的问题,最好与原始文件完全相同,但至少几乎相同。

我一直在尝试不同的方法,到目前为止我想到了这个。

  1. 用 LibreOffice 编写的文档被保存为 DocBook XML。假设它被命名为“file.xml”。
  2. 此文件使用一组来自文件“docbook.xsl”启动的 DocBook 项目的 XSL 模板进行解析。
  3. 这是通过运行完成的:xsltproc -o intermediate-fo-file.fo/usr/share/xml/docbook/stylesheet/nwalsh/fo/docbook.xsl file.xml
  4. 结果是一个中间 XSL-FO,它通过运行变成 PDF:fop intermediate-fo-file.fo final.pdf
  5. 此 PDF 文件看起来与原始 ODT 文件几乎相同。

但是,假设我一开始有一个 PDF 文件,怎么能做同样的事情呢?有什么建议吗?

最佳答案

从 PDF 到 XML 的无损转换的唯一机会是使用目标 XML 词汇表,它具有与 PDF 相同的文档 View 。由于 PDF 的文档 View 主要(如果不是完全)集中在表示上,并且设计像 Docbook 这样的 XML 词汇表的通常动机是捕获更高级别的抽象,因此您面临两个困难:(1)面向表示的 XML 词汇表并不厚(2) 如果您想从 PDF 转到更传统的 XML 词汇表(直接或通过面向表示的 XML),您将把水往上推,试图根据目标词汇的更高层次的抽象。充其量,将这样一个过程自动化是非常困难的。

如果这是一种思想实验,并且您正在考虑 PDF-XML-PDF 往返以查看何时以及如何可能,那么您现在知道有些人会给出的理由相信它在任何一般情况下都是不可能的形式。如果您出于某些实际原因需要这种 PDF 到 PDF 的数据流,您可能需要反射(reflection)是否可以通过其他方式实现您的实际目标。

关于xml - PDF 到 XML 并再次返回 PDF,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12126282/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com