gpt4 book ai didi

elasticsearch - 无需重新索引即可集成 Elasticsearch 和 Stanford NLP

转载 作者:行者123 更新时间:2023-11-29 02:51:43 27 4
gpt4 key购买 nike

我们一直在系统中使用Elasticsearch。尽管我使用了它的分析器和查询。我没有深入研究它的索引。截至目前,我不知道 ES 让我们在其分片中使用 Lucene(反向)索引有多远。

我们现在正在研究一系列 NLP 功能——其中之一是 NER斯坦福 NLP 提出上诉。

没有插件可以一起使用这两个包(?)

我还没有深入研究 Stanford NLP。然而——据我所见,它的工作这一切都在自己的索引上。无论传递给它的对象或类型,斯坦福 NLP 正在为它自己编制索引并从那里开始。

这将使系统为同一组文档使用 2 个不同的索引——那些 ES 和 StanfordNLP 的,这将是昂贵的。

有没有办法解决这个问题?

我遇到的一个场景是:让 StanfordNLP 在 Lucene 段上工作——ES 已经构建的倒排索引。在这种情况下:

1.) StanfordNLP 是否使用 Lucene 索引而不为自己重新索引任何内容?我不知道 StanfordNLP 的索引结构——甚至不知道它使用/不使用 Lucene 的程度。

2.) 在 ES 分片中使用 Lucene 索引有什么限制吗?我们会直接使用这些 Lucene 段而绕过中间的 ES 吗?

我正在尝试将所有内容放在一起——目前还没有定论。对不起天真的问题。

我知道 OpenNLP 及其插件。我还没有检查过——我猜它不会是“双重索引”并使用 ES 的索引(?)然而,我们追求的是 StanfordNLP。

TIA。

最佳答案

Stanford NER 既不使用 Lucene/SOLR 索引,也不创建自己的文本索引。它将一段文本或标记序列映射到带有 NER 注释的标记序列。

通常,您会在提取时对每个文档运行 NER,在标记化时间前后,在索引之前,然后为每个文档索引实体和单词。

我知道斯坦福 NER 没有现有的 ElasticSearch 插件,但看看人们如何使用 Solr 完成此操作可能会提供信息:http://www.searchbox.com/named-entity-recognition-ner-in-solr/ . Solr 和 ElasticSearch 都在内部使用 Lucene 分析器和索引。

关于elasticsearch - 无需重新索引即可集成 Elasticsearch 和 Stanford NLP,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31507528/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com