java - 如何使用 iText 7(或其他)从 Java 中的 XFA PDF 文档中提取 XML？-6ren

java - 如何使用 iText 7(或其他)从 Java 中的 XFA PDF 文档中提取 XML？

转载作者：数据小太阳更新时间：2023-10-29 02:28:42

31

4

使用 Java 和 iText 7，我试图从 XFA PDF 表单中提取 XML 数据以解析(并可能修改)数据，但我所能做的就是获取一些相同的基本通用数据对于我使用的任何 XFA 文件。

我知道它必须是可能的，因为它是在 iText RUPS 工具中完成的，但我已经绕了好几天了。

public class Parse {

    private PdfDocument pdf;
    private PdfAcroForm form;
    private XfaForm xfa;
    private Document domDocument;
    private Map<Integer, String> data;
    private int numberOfPages;
    private String pdfText;

    public void openPdf(String src, String dest) throws IOException, TransformerException {

        PdfReader reader = new PdfReader(src);
        reader.setUnethicalReading(true);
        pdf = new PdfDocument(reader, new PdfWriter(dest));
        form = PdfAcroForm.getAcroForm(pdf, true);

        data = new HashMap<Integer, String>();
        numberOfPages = getNumberOfPdfPages();
        PdfPage currentPage;
        String textFromPage;

        for (int page = 1; page <= numberOfPages; page++) {
            System.out.println("Reading page: " + page + " -----------------");
            currentPage = pdf.getPage(page);
            textFromPage = PdfTextExtractor.getTextFromPage(currentPage);
            data.put(page, textFromPage);
            pdfText += currentPage + ":" + "\n" + textFromPage + "\n";
        }


        xfa = form.getXfaForm();
        domDocument = xfa.getDomDocument();
        Map<String, Node> map = xfa.extractXFANodes(domDocument);

        System.out.println("The template node = " + map.get("template").toString() + "\n");
        System.out.println("Dom document = " + domDocument.toString() + "\n");
        System.out.println("In map form = " + map.toString() + "\n");   
        System.out.println("pdfText = " + pdfText + "\n");

        Node node = xfa.getDatasetsNode();
        NodeList list = node.getChildNodes();

        for (int i = 0; i < list.getLength(); i++) {
            System.out.println("Get Child Nodes Output = " + list.item(i) + "\n");
        }

    }
}

这是我收到的通用输出。

Reading page: 1 -----------------
The template node = [template: null]

Dom document = [#document: null]

In map form = {template=[template: null], form=[form: null], xfdf=[xfdf: null], xmpmeta=[x:xmpmeta: null], datasets=[xfa:datasets: null], config=[config: null], PDFSecurity=[PDFSecurity: null]}

pdfText = nullcom.itextpdf.kernel.pdf.PdfPage@6fa38a:

> Please wait... 
> 
> If this message is not eventually replaced by the proper contents of
> the document, your PDF  viewer may not be able to display this type of
> document.     You can upgrade to the latest version of Adobe Reader
> for Windows®, Mac, or Linux® by  visiting 
> http://www.adobe.com/go/reader_download.     For more assistance with
> Adobe Reader visit  http://www.adobe.com/go/acrreader.     Windows is
> either a registered trademark or a trademark of Microsoft Corporation
> in the United States and/or other countries. Mac is a trademark  of
> Apple Inc., registered in the United States and other countries. Linux
> is the registered trademark of Linus Torvalds in the U.S. and other 
> countries.

Get Child Nodes Output = [xfa:data: null]

最佳答案

您有一个纯 XFA 文件。这意味着存储在此文件中的唯一 PDF 内容包含“请稍候...”消息。该页面显示在不知道如何呈现 XFA 的 PDF 查看器中。

这也是您使用以下方法从页面中提取内容时获得的内容:

currentPage = pdf.getPage(page);
textFromPage = PdfTextExtractor.getTextFromPage(currentPage);

这是您在面对纯 XFA 文件时不应该做的事情，因为所有相关内容都存储在 XML 流中，而 XML 流存储在 PDF 文件中。

第一部分你已经答对了:

xfa = form.getXfaForm();
domDocument = xfa.getDomDocument();

XFA 流可在 /AcroForm 条目中找到。我知道这很尴尬，但这就是 PDF 的设计方式。那不是我们的选择，而且 XFA 在 PDF 2.0 中已被弃用，所以 XFA 无论如何都会消亡。当 XFA 最终死亡并被埋葬时，问题就会消失。

也就是说，您有一个 org.w3c.dom.Document 的实例，并且您想要获取存储在该对象中的 XML 文件。您不需要 iText 来执行此操作。例如在 Converting a org.w3c.dom.Document in Java to String using Transformer 中对此进行了解释

我使用以下代码片段在 XFA 文件上测试了该代码:

public static void main(String[] args) throws IOException, TransformerException {
    PdfDocument pdf = new PdfDocument(new PdfReader(SRC));
    PdfAcroForm form = PdfAcroForm.getAcroForm(pdf, true);
    XfaForm xfa = form.getXfaForm();
    Document doc = xfa.getDomDocument();
    DOMSource domSource = new DOMSource(doc);
    StringWriter writer = new StringWriter();
    StreamResult result = new StreamResult(writer);
    TransformerFactory tf = TransformerFactory.newInstance();
    Transformer transformer = tf.newTransformer();
    transformer.setOutputProperty(OutputKeys.ENCODING, "UTF-8");
    transformer.setOutputProperty(OutputKeys.INDENT, "yes");
    transformer.transform(domSource, result);
    writer.flush();
    System.out.println(writer.toString());
}

屏幕上的输出是包含我预期的所有 XFA 信息的 XDP XML 文件。

请注意，我在替换 XFA XML 文件时会很小心。最好不要干预 XFA 结构，而是创建一个只包含使用适当模式创建的数据的 XML 文件，并按照常见问题解答中的描述填写表格:How to fill out a pdf file programmatically? (Dynamic XFA)

关于java - 如何使用 iText 7(或其他)从 Java 中的 XFA PDF 文档中提取 XML？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47778469/

31

4

0

文章推荐： c# - 如何将动态对象序列化为xml C#

文章推荐： go - 更改指向 *os.File 的指针

文章推荐： xml - 优化 XSLT 中的递归

itext - iText 包含哪些默认字体？
iText 文档指出它只包含特定的字体子集，但从未说明它们是什么。有没有人知道 iText 中默认包含哪些字体？ (我在网上搜索过，在任何地方都找不到这个字体列表!) 最佳答案它可能指的是PDF S
itext - IText 7 表格中的列宽问题
我使用固定列宽创建了下表，如下所示， Table headerTable = new Table(new float[]{5,5,5}); headerTable.setWidthPercent(
itext - 缩放图像以使用 iText 填充多个页面
我正在尝试使用 iText 缩放图像(在新的 PDF 文档上)以使其填充页面宽度而不拉伸(stretch)，这样它可能需要几页。我找到了很多解决方案，但它们都非常复杂，而且我真的不喜欢那样编码。到目
itext - Flying Saucer/iText
我正在使用 Flying Saucer/iText 生成报告。现在报告有一个条件，如果特定条件发生，报告应该移动到 pdf 的下一页，并在 PDF 上添加数据等等。问候帕万最佳答案您必须使用 c
itext - Flying Saucer/iText
我正在使用 Flying Saucer/iText 生成报告。现在报告有一个条件，如果特定条件发生，报告应该移动到 pdf 的下一页，并在 PDF 上添加数据等等。问候帕万最佳答案您必须使用 c
itext - 使用 iText 获取行位置
如何使用 iText 找到文档中的行的位置？假设我有一个 PDF 文档中的表格，并且想要阅读其中的内容；我想找到细胞的确切位置。为了做到这一点，我想我可能会找到线条的交点。最佳答案我认为您使用
itext - 使具有带有 itext 的滚动条的表的可编辑单元格只读
请找到下面的代码。 public class MakingFieldReadOnly implements PdfPCellEvent { /** The resulting PDF. */
itext - 在 iText 7 中编写文档时如何获得垂直光标位置？
在 iText 5 中有一个名为 getVerticalPosition() 的方法，它给出了下一个写入对象在页面上的位置。作为回答这个问题 How to find out the current c
itext - 在 TextField IText 中调整文本
抱歉，如果有类似我的帖子，但我是这个论坛的新手，我还没有找到它。我有动态调整 TextField 大小取决于文本大小的问题。我填写现有的 PDF - 在 AcroForm 中填写字段: form.s
itext - 要知道它是否是 ITEXT pdf 中的新页面
我正在使用 itext 生成 pdf。因此，当页面内容超出时，它会自动创建一个新页面。我想知道它是否创建了一个新页面。如果是，我想在页面顶部添加一些图像。 List paylist =new List
itext - 删除表格 iText java 的左右边距
我的有问题固定表格左侧和右侧的边距。我想删除该边距并使用没有边距或填充的所有工作表。我该怎么办？我刚刚试过这个，但对我不起作用: cell.setPaddingLeft(0); cell.se
itext - 如何使用 Itext 对齐段落(对齐)？
我有 2 行，我想对齐(证明)它们。我有这个代码: Paragraph p=new Paragraph(ANC,fontFootData); p.setLeading(1, 1);
itext - 使用外部服务和 iText 签署 PDF
我有这样的场景。我有一个生成 PDF 的应用程序，需要对其进行签名。我们没有用于签署文档的证书，因为它们位于 HSM 中，而我们使用证书的唯一方法是使用 Web 服务。此网络服务提供两个选项，发
itext - 如何实现 itext 7 表中列之间的空间？
我需要实现一个看起来像图片中的表格，列之间有空间。我试过: cell.setPaddingLeft(10); cell.setMarginLeft(10); extractio
itext - 如何实现 itext 7 表中列之间的空间？
我需要实现一个看起来像图片中的表格，列之间有空间。我试过: cell.setPaddingLeft(10); cell.setMarginLeft(10); extractio
itext - 使用 iText 将复选框添加到 PDF 文档
我需要使用 Java 的 iText 库创建一个 PDF 文档。我还需要包括一些复选框，这些复选框根据某些类变量的值打开/关闭。我找到了一些关于交互式表单的示例，但我不需要这种复杂程度:只需将一些复选
itext - 如何使用 iText PdfStamper 将内容添加到 PDF
我正在开发一个系统，我必须在其中将一些图像添加到现有的 PDF 文档中。这适用于 iText 5.1.3，但由于某种原因，在包含扫描图像的 PDF 中，它不会添加任何图像。这是 PDF Docum
itext - 使用 iText 提取 PDF 文本
我们正在研究信息提取，我们想使用iText。我们正在探索 iText。根据我们查阅过的文献，iText 是最好的工具。是否可以从 iText 中每行的 pdf 中提取文本？我在与我的相关的 stac
itext - 使用 iText 填充现有的 pdf 文本字段
我已经创建了一个带有一些文本字段的 pdf 文档。我可以使用 Adobe 阅读器填充这些文本字段并将这些值保存在该文件中。我的问题是，我可以使用 iText 以编程方式执行此操作吗？如果可能，请
itext - 如何摆脱 PdfPCell、iText 5 中的顶部填充
我正在使用 iText 5 表创建标签(如 Avery 标签)。标签元素的定位需要一些非常严格的公差，以便适合标签上的所有内容。我的问题是标签上有多个区域为 PdfPCells。我需要将文本放入这些区

首页

博学

6Ren·AI

商城

java - 如何使用 iText 7(或其他)从 Java 中的 XFA PDF 文档中提取 XML？