gpt4 book ai didi

java - 获取pdf中包含特定单词的页码

转载 作者:行者123 更新时间:2023-12-01 13:57:16 25 4
gpt4 key购买 nike

如何在java中的pdfbox API中获取pdf中包含特定单词的页码?

我能够阅读单词:

PDFTextStripper s = new PDFTextStripper();
String contents = s.getText(pdoc);
if(contents.contains("SUBSCRIPTION DETAILS")){
...
}

但无法找到包含该单词的页码

提前致谢。

最佳答案

PDFTextStripper 允许您阅读确切的页面。因此,您需要遍历所有页面并检查页面是否包含特定字符串:

PDDocument pdoc = ...;
for(int pageNumber = 1; pageNumber < pdoc.getPageCount(); i++){

PDFTextStripper s = new PDFTextStripper();
s.setStartPage(pageNumber);
s.setEndPage(pageNumber);
String pageText = reader.getText(pdoc);
String contents = s.getText(pdoc);
if(contents.contains("SUBSCRIPTION DETAILS")){
...
}
}

关于java - 获取pdf中包含特定单词的页码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19559906/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com