gpt4 book ai didi

search - 以编程方式在多个 PDF 文件中搜索关键字和注释页码

转载 作者:行者123 更新时间:2023-12-04 15:44:59 24 4
gpt4 key购买 nike

我在一家博物馆工作,目录中有数百份科学论文 pdf。我对所有这些都进行了 OCR,以便可以在 Adob​​e Reader 等程序中搜索关键字。我需要编写一个程序,让我可以在此目录中搜索特定物种名称,并生成与关键字匹配的文档列表以及相应的页码。

我正在寻找一个 pdf 库,我可以用它来完成这个任务(希望)是免费的。我用PDFOne Library写了一个小程序但是在整个目录中搜索一个术语需要大约 10 分钟的时间。我想大大缩短时间,因为 Adob​​e Reader 和 PDF-XchangeViewer 可以在一分钟内执行相同的搜索。我对使用的语言没有偏好。

任何人都可以指导我使用正确的资源,以便我可以完成这项任务吗?谢谢。

最佳答案

我建议您评估使用 Apache Solr - 它可以非常有效地索引 PDF 文件。

http://lucene.apache.org/solr/

关于search - 以编程方式在多个 PDF 文件中搜索关键字和注释页码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18738448/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com