gpt4 book ai didi

java - 给定输入作为开始和结束页码逐行读取pdf页面 - pdfbox java

转载 作者:行者123 更新时间:2023-12-01 12:04:48 37 4
gpt4 key购买 nike

我有一个10页的pdf,我需要读取第2到5页并结束文本@@end是否出现在pdf中,然后将其存储到字符串中检查是否有另一个@@end

我有以下代码:我在这里使用pdfbox

PDDocument pddDocument=PDDocument.load(new File("sample.pdf")); 
PDFTextStripper textStripper=new PDFTextStripper();
String text = textStripper.getText(pddDocument).toString();

它只允许我读取整个 pdf 并将其存储到字符串文本中。我需要的是读取第2页到第5页的pdf并检查 @@end 的出现,然后执行一些操作,如下所示

read the pdf from page number 2
.........
if(contains("@@end"))
do some operation
then check again till reaches page number 5

请大佬指导一下?

最佳答案

“ secret ”是

textStripper.setStartPage(p);
textStripper.setEndPage(p);

所以你只需做这样的事情(页面是从零开始的):

for (int p = 1; p <= 4; ++p)
{
stripper.setStartPage(p);
stripper.setEndPage(p);
String text = textStripper.getText(pddDocument);
if (text.contains("@@end"))
// do stuff
}

关于java - 给定输入作为开始和结束页码逐行读取pdf页面 - pdfbox java,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27700046/

37 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com