gpt4 book ai didi

python - 如何索引 PDF 文件并搜索关键字?

转载 作者:太空狗 更新时间:2023-10-29 20:52:42 25 4
gpt4 key购买 nike

我有一堆 PDF(几百个)。它们没有适当的结构,也没有特定的领域。他们只有很多文字。

我正在尝试做的事情:

索引 PDF 并根据索引搜索一些关键字。我有兴趣查找该特定关键字是否在 PDF 文档中,如果是,我想要找到该关键字的行。如果我在包含该术语的 PDF 文档中搜索“Google”,我希望看到“Google 是一个很棒的搜索引擎”,这是 PDF 中的一行。

我是如何决定的:

要么使用 SOLR 要么使用 Whoosh,但 SOLR 看起来很适合内置 PDF 支持。我更喜欢用 Python 编写代码,而 Sunburst 是我喜欢的 SOLR 上的包装器。SOLR 的示例/示例项目有一些基于价格比较的模式文件。现在我不确定我是否可以使用 SOLR 来回答我的问题。

你们有什么建议?非常感谢任何输入。

最佳答案

我认为 Solr 符合您的需求。

“突出显示”功能正是您要寻找的。为此,您必须索引并将文档存储在 lucene 索引中。

突出显示功能返回一个片段,其中标记了搜索到的文本。

看看这个:http://wiki.apache.org/solr/HighlightingParameters

关于python - 如何索引 PDF 文件并搜索关键字?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6822884/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com