gpt4 book ai didi

java - 在java中提取PDF的页脚数据

转载 作者:行者123 更新时间:2023-12-01 12:28:22 25 4
gpt4 key购买 nike

我能够从字符串中的 pdf 页面获取数据。但除此之外,页脚数据也被提取。我想从 pdf 的所有页面中删除这些内容。我怎样才能删除它我使用 Rectangle2D 但坐标没有提供数据

最佳答案

OP 在评论中表示他使用了以下代码:

PDDocument doc = PDDocument.load("xyz.pdf");
PDPage page = (PDPage)doc.getDocumentCatalog().getAllPages().get( 1 );
Rectangle2D region = new Rectangle2D.Double(10, 10, 10, 10);
String regionName = "region";
PDFTextStripperByArea stripper = new PDFTextStripperByArea();
stripper.addRegion(regionName, region);
stripper.extractRegions(page);
System.out.println("Region is "+ stripper.getTextForRegion("region"));

对于大多数文档,此代码不会提取任何文本,因为它会查看第二个文档页面左上角区域中的一个小区域(10x10 pt)。因此,new Rectangle2D.Double(10, 10, 10, 10) 中的值必须更改。

I tried with various regions , yet I am not getting any text, If you have idea for a normal pdf page , you should share

没有什么比普通的 pdf 页面更好的了。 PDF 的目标是使用户能够轻松、可靠地交换和查看电子文档,而不受创建文档的环境或查看或打印文档的环境的影响。没有严格的限制页面尺寸或页面内容的位置。

例如对于 this form

Canada Life HIPAA form

你需要这样的值

PDPage page = (PDPage)doc.getDocumentCatalog().getAllPages().get(0);
Rectangle2D region = new Rectangle2D.Float(0f, 230f, 612f, 300f);

提取尸体“我授权任何健康计划......我已收到此授权的副本。”没有页眉、页脚或表单线。

如果您有许多相似的页面(例如,一个大文档包含许多具有相似布局的页面),则必须对许多页面进行一次测量才能提取。

关于java - 在java中提取PDF的页脚数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26143942/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com