gpt4 book ai didi

java - 在多个 pdf 文件中搜索一个词并根据字数为 pdf 编制索引

转载 作者:行者123 更新时间:2023-11-29 03:13:17 25 4
gpt4 key购买 nike

谁能帮我在多个 pdf 文件中搜索一个词并计算字数?

我需要在每个文档中按字数降序显示 pdf,我应该在 java 中执行此操作。

最佳答案

您可以使用 PDFBox用于计算 PDF 文件中的字数:

public static int countWordInFile(String word, String filename, String fileEncoding) throws Exception {
int count=0;
PrintStream ps = null;
PrintStream originalSystemOut = System.out;

try {
ByteArrayOutputStream baos = new ByteArrayOutputStream();
ps = new PrintStream(baos);
System.setOut(ps);

// Extracting text from page
ExtractText.main(new String[] {//
//
"-encoding", fileEncoding, //
"-console", //
filename //
//
});

String content = baos.toString(fileEncoding);

// TODO: Find the word in content and count its occurences...

} finally {
IOUtils.closeQuietly(ps);
System.setOut(originalSystemOut);
}

return count;
}

关于java - 在多个 pdf 文件中搜索一个词并根据字数为 pdf 编制索引,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28063226/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com