gpt4 book ai didi

lucene - 语言语料库搜索引擎

转载 作者:行者123 更新时间:2023-12-02 00:49:36 25 4
gpt4 key购买 nike

我正在尝试寻找一个好的库来构建语言语料库搜索引擎。这样的引擎必须产生绝对透明的搜索结果(精确找到匹配项的数量,即使整个语料库匹配也不会进行结果切割)、基本的查询语法(AND、OR、NOT运算符、距离搜索、通配符搜索)以及细化搜索结果的能力。设置要搜索的文档(即设置 subcirous)。一个重要的细节是索引分区和并行执行搜索的能力(语料库大小为10^8个单词的量级,并且搜索服务必须是实时的)。

主要选择是 Sphinx 和 Clucene(C++ Lucene 端口)。不幸的是,我对这些图书馆的组织不太了解,因此了解哪一个更适合我的要求将非常有帮助。

(我还尝试了一种专门的引擎 - IMS Corpus Workbench - 结果证明它不具有所需的可扩展性)。

最佳答案

我建议设置 SOLR 服务器,它是 Lucene 的衍生品并且具有 Restful 接口(interface)。 Lucene(SOLR)的新功能是其他同类产品无法比拟的。一个由 10^8 个不同单词组成的语料库,也许是一个问题,但我希望它们是非不同的。在我看来,这最多可能会导致一些性能损失。在裸 Lucene 上并行提供分区和搜索将是一项残余工作。 SOLR 提供了这两种功能。我对 sphinx 不太了解。但到目前为止,Lucene 及其衍生产品正处于最前沿。

关于lucene - 语言语料库搜索引擎,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13998063/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com