gpt4 book ai didi

java - 如何自动将pdf表单域导出到xml

转载 作者:塔克拉玛干 更新时间:2023-11-03 02:54:56 27 4
gpt4 key购买 nike

我有一个包含表单字段的 pdf 文件,需要自动将数据导出到 xml 文件中。这是我为测试创建的示例表单的屏幕:

enter image description here

注意:通过单击 工具 > 表单 > 导出表单数据 使用 Acrobat Professional 手动 导出它效果很好,最后选择 xml 扩展名作为文件输出。这是我手动导出时得到的结果:

<?xml version="1.0" encoding="UTF-8"?>
<fields>
<first_name>John</first_name>
<last_name>Doe</last_name>
</fields>

但是,我需要将其自动化,例如使用 python 脚本Java 实现 或一些命令行工具。我可以使用哪些库或工具将表单字段数据导出到 xml?工具或库应该开源,以便我可以将其集成到我的工作流程中。

我已经尝试过 python pdfminer 库,它帮助我导出静态部分(如 Static form headerFirst name:Last name:) 的 pdf 文件:但是如何导出表单字段数据(在我的例子中是表单字段 first_namelast_name 的内容)? ?

编辑:请随意下载 sample.pdf 文件 here .

最佳答案

Apache PDFBox怎么样? ?它是开源的,可以满足您的需求,因为该网站说“从 PDF 表单中提取表单数据或预填 PDF 表单。”

编辑:查看 PrintFields example .

关于java - 如何自动将pdf表单域导出到xml,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21009608/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com