gpt4 book ai didi

pdf - 使用 ElasticSearch 和/或 Solr 作为 MS Office 和 PDF 文档的数据存储

转载 作者:行者123 更新时间:2023-11-29 02:43:50 26 4
gpt4 key购买 nike

我目前正在设计一个全文搜索系统,用户可以在其中对 MS Office 和 PDF 文档执行文本查询,结果将返回与查询最匹配的文档列表。然后,用户将选择任何返回的文档并在 MS Word、Excel 或 PDF 查看器中查看该文档。

我能否使用 ElasticSearch 或 Solr 将原始二进制文档(即 .docx、.xlsx、.pdf 文件)导入其“数据存储”,然后根据命令将文档导出到用户设备以供查看。

以前,我使用 MongoDB 2.6.6 将原始文件导入 GridFS,并将提取的文本导入一个单独的集合(该集合包含一个文本索引)并且工作正常。但是,MongoDB 全文搜索非常基础,因此我现在正在寻找 Solr 或 ElasticSearch 来执行更复杂的文本搜索。

尼克

最佳答案

Solr 和 Elasticsearch 都会索引文档的内容。 Solr 具有内置功能,Elasticsearch 需要一个插件。无论哪种方式都很简单,并且都在幕后使用 Tika。

它们都不会存储文档本身。您可以尝试让他们这样做,但他们不是为此而设计的,您会受苦。

此外,目前不推荐将 Solr 和 Elasticsearch 作为主存储。他们可以做到,但这对他们来说并不像文件系统实现那样关键。

因此,我建议将文件放在其他地方并仅使用 Solr/Elasticsearch 进行搜索。这就是它们的闪光点。

关于pdf - 使用 ElasticSearch 和/或 Solr 作为 MS Office 和 PDF 文档的数据存储,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27977939/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com