gpt4 book ai didi

ruby-on-rails - Elasticsearch 的拼写检查 Ngram 不适用于 Rails

转载 作者:行者123 更新时间:2023-12-02 22:13:55 24 4
gpt4 key购买 nike

我在我的模型中使用了拼写检查,这样如果用户输入像“Rentaal”这样的数据,那么它应该获取正确的数据作为“Rental”

document.rb代码

require 'elasticsearch/model'

class Document < ApplicationRecord
include Elasticsearch::Model
include Elasticsearch::Model::Callbacks
belongs_to :user

Document.import force: true


def self.search(query)
__elasticsearch__.search({
query: {
multi_match: {
query: query,
fields: ['name^10', 'service']
}
}
})
end


settings index: {
"number_of_shards": 1,
analysis: {
analyzer: {
edge_ngram_analyzer: { type: "custom", tokenizer: "standard", filter:
["lowercase", "edge_ngram_filter", "stop", "kstem" ] },
}
},
filter: {
edge_ngram_filter: { type: "edgeNGram", min_gram: "3", max_gram:
"20" }
}
} do
mapping do
indexes :name, type: "string", analyzer: "edge_ngram_analyzer"
indexes :service, type: "string", analyzer: "edge_ngram_analyzer"
end
end
end

搜索 Controller 代码:

def search
if params[:query].nil?
@documents = []
else
@documents = Document.search params[:query]
end
end

但是,如果我输入 Rentaal 或任何拼写错误的单词,它不会显示任何内容。在我的控制台中

     @documents.results.to_a 

给出一个空数组。

我在这里做错了什么?如果需要更多数据,请告诉我。

最佳答案

尝试在您的multi_match 查询中添加模糊性:

{
"query": {
"multi_match": {
"query": "Rentaal",
"fields": ["name^10", "service"],
"fuzziness": "AUTO"
}
}
}

说明

Kstem 过滤器用于将单词缩减为词根形式,它在此处并不像您预期​​的那样工作 - 它会正确处理像 RentaRent 这样的短语,但不会您提供的拼写错误。

您可以检查词干提取如何使用以下查询:

curl -X POST \
'http://localhost:9200/my_index/_analyze?pretty=true' \
-d '{
"analyzer" : "edge_ngram_analyzer",
"text" : ["rentaal"]
}'

结果我看到:

{
"tokens": [
{
"token": "ren"
},
{
"token": "rent"
},
{
"token": "renta"
},
{
"token": "rentaa"
},
{
"token": "rentaal"
}
]
}

因此,通过应用模糊处理,典型的拼写错误会得到更好的处理。

关于ruby-on-rails - Elasticsearch 的拼写检查 Ngram 不适用于 Rails,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45408440/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com