gpt4 book ai didi

elasticsearch - 创建多词搜索建议

转载 作者:行者123 更新时间:2023-12-02 23:30:24 24 4
gpt4 key购买 nike

可以设置Elasticsearch的edgen_n_grams的方式,以在ES索引抓取数据时构建多词短语吗?

我想将这些多词短语用作我正在构建的小型搜索应用程序的搜索建议。

我正在使用Nutch来爬网某些站点,并使用ES来索引已爬网的数据。

我认为,由于ES可以在whitespace上拆分,因此不应该那么难...但是,我没有得到预期的结果。所以现在我问这是否有可能?

我的ES索引是这样设置的

    PUT /_template/autocomplete_1
{
"template": "auto*",
"settings": {
"index": {
"number_of_shards": 1,
"number_of_replicas": 1
},
"analysis": {
"filter": {
"autocomplete_filter": {
"type": "edge_ngram",
"min_gram": "1",
"max_gram": "30",
"token_chars": ["letter","digit","whitespace"]
}
},
"analyzer": {
"autocomplete_analyzer": {
"type": "custom",
"tokenizer": "standard",
"filter": [
"lowercase",
"autocomplete_filter"
]
}
}
}
},
"mappings": {
"doc": {
"_all": {
"enabled": false
},
"properties": {
"anchor": {
"type": "string"
},
"boost": {
"type": "string"
},
"content": {
"type": "string",
"index_analyzer": "autocomplete_analyzer",
"search_analyzer": "standard"
},...
"content"是每个Nutch的html正文字段。我使用的是“内容”,因为我认为它会生成最多的短语。

最佳答案

要创建多词短语,您需要shingles。更具体地说,可以组合 token 的this token filter

关于elasticsearch - 创建多词搜索建议,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37166590/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com