gpt4 book ai didi

java - 如何使用PDFPTable或PDFPTable Extractor类在java中读取PDF文件中的值?

转载 作者:行者123 更新时间:2023-12-02 11:42:58 26 4
gpt4 key购买 nike

我尝试使用 PDFTextStripperByAreaPDPageContentStream 类从我的 pdf 文件中提取数值。 它们工作得很好!

但我的要求是使用PDFTablePDFTableExtractor类来读取pdf内容。你能告诉我什么是maven依赖jar文件我需要用来访问上述类?另请提及从特定位置获取值所需的方法。

我还有一个疑问。 我们可以从 PDF 文件中提取表格格式的数据吗? 我的意思是带有表格线的行和列的数据。如果一个页面包含一些文本和一个表格,我们可以只读取表格标题和行吗? 我已将我的页面上传到 GitHub。点击here !从该图像中,我只需要总保费、GST 和应付总额的值。请告诉我是否可行

最佳答案

首先,不要使用包com.lowagie中的类该代码是旧的、过时的并且不再受支持。此外,这段代码属于iText的早期版本。

后来对所有代码的知识产权进行了彻底的调查(因为iText有很多贡献者)。当您使用旧代码时,您可能(在不知不觉中)使用您没有版权的代码。

其次,如果您只是想解决从 PDF 文档中提取数字和表格的问题,请查看 pdf2Data。这是一个 iText 插件,可以让事情变得更加容易。

它为您提供了一个漂亮的用户界面,您可以在其中构建用于数据提取的模板。然后,您可以调用单个方法来将现有 (XML) 模板与输入 PDF 文档进行匹配,并且您将获得一个包含有关匹配的所有信息的数据结构。

http://pdf2data.online/

关于java - 如何使用PDFPTable或PDFPTable Extractor类在java中读取PDF文件中的值?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48402198/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com