gpt4 book ai didi

elasticsearch - 如何配置ngram token 生成器以搜索带有句点的单词

转载 作者:行者123 更新时间:2023-12-02 22:41:16 29 4
gpt4 key购买 nike

鉴于以下html文本存储在lucene索引内的文档字段中,我希望能够对“jquery”或“jquery.min”或“jquery.min.js”进行query_string查询,并具有命中归还。

<script type="text/javascript" src="https://ajax.googleapis.com/ajax/libs/jquery/1.6.4/jquery.min.js"></script>

这是我现在用于索引上的标记生成器的内容:
        "tokenizer" : {
"my_ngram_tokenizer" : {
"type" : "nGram",
"min_gram" : "3",
"max_gram" : "8",
"token_chars": [ "letter", "digit", "punctuation"]
}
}

我遇到的问题是我可以搜索“jquery”或“jquery.min.ms”,但不能搜索“jquery.min”。

有没有一种方法可以在Lucene中进行标记化,以便所有这三个查询都可以返回结果?

最佳答案

在没有看到其余设置的情况下很难确定,但这是对我有用的设置。但是,它不会返回查询"jquery.min.ms"的文档,因此您的设置与我所做的有所不同。如果您可以发布完整的映射(或足够的映射以捕获问题的本质),也许我可以提供进一步的帮助。

这是我所做的。我使用keyword analyzer进行搜索,并使用了ngram标记器进行索引。我将"max_gram"的大小增加到10,因为那是"jquery.min"的大小。使用keyword分析器意味着查询将不会被标记化,而仅用于与索引标记匹配。根据您的用例,这可能不是您想要的。

DELETE /test_index

PUT /test_index
{
"settings": {
"number_of_shards": 1,
"number_of_replicas": 0,
"analysis": {
"analyzer": {
"my_analyzer": {
"type": "custom",
"tokenizer": "my_ngram_tokenizer"
}
},
"tokenizer": {
"my_ngram_tokenizer": {
"type": "nGram",
"min_gram": "3",
"max_gram": "10",
"token_chars": [
"letter",
"digit",
"punctuation"
]
}
}
}
},
"mappings": {
"doc": {
"properties": {
"my_text": {
"type": "string",
"index_analyzer": "my_analyzer",
"search_analyzer": "keyword"
}
}
}
}
}

PUT /test_index/doc/1
{
"my_text": "<script type=\"text/javascript\" src=\"https://ajax.googleapis.com/ajax/libs/jquery/1.6.4/jquery.min.js\"></script>"
}

PUT /test_index/doc/2
{
"my_text": "<script src=\"https://ajax.googleapis.com/ajax/libs/angular_material/0.7.0/angular-material.min.js\"></script>"
}

POST /test_index/_search
{
"query": {
"query_string": {
"default_field": "my_text",
"query": "jquery.min"
}
}
}
...
{
"took": 3,
"timed_out": false,
"_shards": {
"total": 1,
"successful": 1,
"failed": 0
},
"hits": {
"total": 1,
"max_score": 0.0390625,
"hits": [
{
"_index": "test_index",
"_type": "doc",
"_id": "1",
"_score": 0.0390625,
"_source": {
"my_text": "<script type=\"text/javascript\" src=\"https://ajax.googleapis.com/ajax/libs/jquery/1.6.4/jquery.min.js\"></script>"
}
}
]
}
}

这是我使用的代码:

http://sense.qbox.io/gist/adc96befb466c1ec2e02685cc716b198e154b94e

让我知道是否有帮助。

关于elasticsearch - 如何配置ngram token 生成器以搜索带有句点的单词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28220935/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com