gpt4 book ai didi

ruby-on-rails - 在Tire和Ruby on Rails上使用Elasticsearch搜索电子邮件时结果无效

转载 作者:行者123 更新时间:2023-12-03 00:34:03 25 4
gpt4 key购买 nike

我正在尝试使用Tire和elasticsearch通过电子邮件进行索引和搜索。

问题是,如果我搜索:“something@example.com”。由于@和我得到奇怪的结果。符号。我通过破解查询字符串并在我怀疑是字符串的字符串之前添加“email:”来“解决”。如果不这样做,那么在搜索“something@example.com”时,我会得到“something@gmail.com”或“asd@example.com”的结果。

include Tire::Model::Search
include Tire::Model::Callbacks

settings :analysis =>{
:analyzer => {
:whole_email => {
'tokenizer' => 'uax_url_email'
}
}
} do
mapping do
indexes :id
indexes :email, :analyzer => 'whole_email', :boost => 10
end
end

def self.search(params)
params[:query] = params[:query].split(" ").map { |x| x =~ EMAIL_REGEXP ? "email:#{x}" : x }.join(" ")
tire.search(load: {:include => {'event' => 'organizer'}}, page: params[:page], per_page: params[:per_page] || 10) do
query do
boolean do
must { string params[:query] } if params[:query].present?
must { term :event_id, params[:event_id] } if params[:event_id].present?
end
end
sort do
by :id, 'desc'
end
end
end

def to_indexed_json
self.to_json
end

当使用“email:”进行搜索时,分析器可以完美地工作,但是如果没有它,它会在没有指定分析器的情况下在电子邮件中搜索该字符串,从而得到很多不良结果。

最佳答案

我认为您的问题与_all字段有关。默认情况下,所有字段都会被索引两次,一次是在其字段名称下,另一次是在_all字段中使用不同的分析器。

如果您发送查询而不指定指定要搜索的字段,则将针对_all字段执行查询。当您为文档建立索引时,电子邮件字段的内容会再次在_all字段下建立索引(以在映射中停止此已设置的include_in_all: false),在此处以标准方式标记它们(分别位于@和。上)。这意味着未经指导的查询将给出奇怪的结果。

我要解决的方法是对电子邮件使用term查询,并确保指定要搜索的字段。术语查询速度更快,因为它没有query_string查询具有的查询解析步骤(这就是为什么在字符串前面加上“email:”的原因,它进入了正确的字段,这就是查询解析器的作用)。另外,您不需要,无需指定自定义分析器,除非您要索引包含自由文本,URL和电子邮件的字段。如果该字段仅包含电子邮件,则只需设置index: not_analyzed,它将保留为单个 token 。 (您可能希望拥有一个自定义分析器,但是可以将电子邮件小写。)

使您的搜索查询如下所示:

"term": {
"email": "example@domain.com"
}

祝好运!

关于ruby-on-rails - 在Tire和Ruby on Rails上使用Elasticsearch搜索电子邮件时结果无效,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18282975/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com