gpt4 book ai didi

java - 在 Elasticsearch 中使用 ngram 进行搜索

转载 作者:行者123 更新时间:2023-11-29 07:55:56 25 4
gpt4 key购买 nike

我可以在 Elasticsearch 中搜索术语顺便说一句,我设置如下:

.startObject("filter")
.startObject("lowercase")
.field("type", "lowercase")
.endObject()
.endObject()
.startObject("filter")
.startObject("ngram")
.field("type", "nGram")
.field("min_gram", "3")
.field("max_gram", "10")
.endObject()
.endObject()

然后我试着像这样映射它。

builder.startObject().startObject(TYPE_TEST).startObject("properties");
builder.startObject(title)
.field("type", "string")
.field("store", "yes")
.field("analyzer", "series_analyzer")
.field("boost", "10")
.endObject();

然后我像这样在整个领域中搜索“术语”。

 curl -XGET localhost:9200/test/_search?q="testte"

我无法通过查询“某些部分术语”找到任何结果。

相反,我可以用这个查询得到好的结果

curl -XGET localhost:9200/test/_search?q=title:testte

我只想在没有“标题”字段的情况下使用 nGram 搜索术语。如何在整个领域搜索术语?

请告诉我。提前致谢

最佳答案

只有在使用 ngrams 索引的字段上进行搜索时,才能通过 ngrams 获得部分匹配项。在您的情况下,它是映射中定义的 title 字段。当您未在 query_string query 中指定字段时, 它默认使用 _all 字段,该字段使用 standard analyzer 进行索引.您可以在查询中指定不同的默认字段,这样就可以避免为每个术语指定它。如果您想将 ngram 应用于所有字段,您可以更改 _all 字段的映射,但我不建议这样做。Ngrams 往往会大大增加索引的大小,因此我不会在所有地方应用它们。此外,通常最好对每个字段(或字段组)应用不同的文本分析,这通常是领域驱动的。

此外,_all 字段在开始和搜索所有内容时非常方便,但它是应用于所有字段的相同文本分析,您可能不想依赖它生产。从长远来看,我宁愿建议禁用它。

另一个提示:看看 match query ,这是大多数情况下使用的查询。 query_string 为您提供了更多功能,但同时也容易出错。我会使用匹配查询,除非您需要只有 query_string 提供的功能。

关于java - 在 Elasticsearch 中使用 ngram 进行搜索,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17664122/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com