gpt4 book ai didi

java - 搜索 PDF 文件中的文本

转载 作者:行者123 更新时间:2023-12-02 07:02:07 25 4
gpt4 key购买 nike

我有一个有关单词的列表(86 个单词),以及一些 PDF 文件。我想在 PDF 文件中搜索这些单词并返回值告诉我是否存在。

在研究教程中的解决方案时,我遇到了两个问题:

  1. 我是被迫将 pdf 文件转换为文件吗?

  2. 什么是简单的图书馆,可以让我意识到我的问题,因为我真的很困惑,有很多例子(pdfbox,Appach Lucense,iText,pdftron ....)

最佳答案

is what I'm forced to convert pdf file to file

PDF 文件是一个文件。因此,您不必转换它。你必须能够阅读它。您可以使用可用的 java PDF 解析器之一(例如您提到的 pdfbox)。

what is the simple bibilotheque that allows me to realize my problem...

只要您只有 86 个单词和一份文档,您可能不需要像 Lucene 这样的索引工具。但是,如果您想构建支持不同目标和不同文档的应用程序(特别是如果您需要真正的自由文本搜索),您可能需要 Lucene(或 Solr)首先对文档执行索引,然后执行使用索引进行搜索。

关于java - 搜索 PDF 文件中的文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16518694/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com