gpt4 book ai didi

Elasticsearch 在具有部分和完全匹配的多个字段上

转载 作者:行者123 更新时间:2023-12-02 22:32:51 24 4
gpt4 key购买 nike

我们的 Account型号有 first_name , last_name和一个 ssn (社会安全号码)。

我想在 first_name, 上做部分匹配last_name' 但与 ssn 完全匹配.到目前为止我有这个:

settings analysis: {
filter: {
substring: {
type: "nGram",
min_gram: 3,
max_gram: 50
},
ssn_string: {
type: "nGram",
min_gram: 9,
max_gram: 9
},
},
analyzer: {
index_ngram_analyzer: {
type: "custom",
tokenizer: "standard",
filter: ["lowercase", "substring"]
},
search_ngram_analyzer: {
type: "custom",
tokenizer: "standard",
filter: ["lowercase", "substring"]
},
ssn_ngram_analyzer: {
type: "custom",
tokenizer: "standard",
filter: ["ssn_string"]
},
}
}

mapping do
[:first_name, :last_name].each do |attribute|
indexes attribute, type: 'string',
index_analyzer: 'index_ngram_analyzer',
search_analyzer: 'search_ngram_analyzer'
end

indexes :ssn, type: 'string', index: 'not_analyzed'

end

我的搜索如下:
query: {
multi_match: {
fields: ["first_name", "last_name", "ssn"],
query: query,
type: "cross_fields",
operator: "and"
}

}

所以这有效:
 Account.search("erik").records.to_a

甚至(对于埃里克·史密斯):
 Account.search("erik smi").records.to_a

和 ssn:
 Account.search("111112222").records.to_a

但不是:
 Account.search("erik 111112222").records.to_a

知道我索引或查询错误吗?

感谢您的任何帮助!

最佳答案

是否必须使用单个查询字符串来完成?如果没有,我会做这样的事情:

PUT /test_index
{
"settings": {
"number_of_shards": 1,
"analysis": {
"filter": {
"ngram_filter": {
"type": "ngram",
"min_gram": 2,
"max_gram": 20
}
},
"analyzer": {
"ngram_analyzer": {
"type": "custom",
"tokenizer": "standard",
"filter": [
"lowercase",
"ngram_filter"
]
}
}
}
},
"mappings": {
"doc": {
"_all": {
"enabled": true,
"index_analyzer": "ngram_analyzer",
"search_analyzer": "standard"
},
"properties": {
"first_name": {
"type": "string",
"include_in_all": true
},
"last_name": {
"type": "string",
"include_in_all": true
},
"ssn": {
"type": "string",
"index": "not_analyzed",
"include_in_all": false
}
}
}
}
}

注意 _all field 的使用。我在 first_name 中包含了 last_name_all ,但没​​有包含 ssn ,并且根本没有分析 ssn ,因为我想对其进行精确匹配。

我索引了几个文档以供说明:
POST /test_index/doc/_bulk
{"index":{"_id":1}}
{"first_name":"Erik","last_name":"Smith","ssn":"111112222"}
{"index":{"_id":2}}
{"first_name":"Bob","last_name":"Jones","ssn":"123456789"}

然后我可以查询部分名称,并按确切的 ssn 过滤:
POST /test_index/doc/_search
{
"query": {
"filtered": {
"query": {
"match": {
"_all": {
"query": "eri smi",
"operator": "and"
}
}
},
"filter": {
"term": {
"ssn": "111112222"
}
}
}
}
}

我得到了我的期望:
{
"took": 2,
"timed_out": false,
"_shards": {
"total": 1,
"successful": 1,
"failed": 0
},
"hits": {
"total": 1,
"max_score": 0.8838835,
"hits": [
{
"_index": "test_index",
"_type": "doc",
"_id": "1",
"_score": 0.8838835,
"_source": {
"first_name": "Erik",
"last_name": "Smith",
"ssn": "111112222"
}
}
]
}
}

如果您需要能够使用单个查询字符串(无过滤器)进行搜索,您也可以在 ssn 字段中包含 all ,但通过此设置,它也将匹配部分字符串(如 111112 ),因此可能不会成为你想成为的人。

如果只想匹配前缀(即以单词开头的搜索词),则应使用 edge ngrams

我写了一篇关于使用 ngrams 的博客文章,它可能对你有所帮助: http://blog.qbox.io/an-introduction-to-ngrams-in-elasticsearch

这是我用于此答案的代码。我尝试了一些不同的东西,包括我在这里发布的设置,以及另一个 inluding ssn 中的 _all ,但带有边缘 ngrams。希望这可以帮助:

http://sense.qbox.io/gist/b6a31c929945ef96779c72c468303ea3bc87320f

关于Elasticsearch 在具有部分和完全匹配的多个字段上,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29806613/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com