elasticsearch - Elasticsearch看似随机得分和匹配-6ren

elasticsearch - Elasticsearch看似随机得分和匹配

转载作者：行者123 更新时间：2023-12-02 23:35:43

我正在使用bool搜索来匹配多个字段。在索引时间使用多个过滤器对字段进行了分析，但主要使用edge_ngram。

我遇到的问题是评分似乎悬而未决。我希望对savvas的搜索首先与first_name的Savvas字段之一匹配，但它们的得分要晚得多。例如，对savvas的搜索按得分顺序返回:

First name | Last name       | Email
___________|_________________|________________________
------     | Sav---          | ---@sa-------------.com
-----s     | Sa----          | sa----------s@-----.com
Sa----     | ----            | sa---------@-------.com  
Sa----     | --------        | sa-------@---------.com
sa-        | -----           | sa----------@------.com
Sa--       | ----s-----s     | sa------s-----s@---.com
Sa----     | -----------     | sa-----@-----------.com
Savvas     | -------s        | ----------@--------.com
Savvas     | -------s        | --------@----------.com
Sa-        | ---s----S------ | sa------s-----@----.com

我用 -替换了字段中搜索词的边缘n-gram以外的其他字符，并修改了电子邮件的长度以保护身份。

实际上搜索 ssssssssssssssss(尽管我的数据中不存在)会返回其中 s字符数最多的项目。我没有为搜索做任何手动ngram，所以我不希望发生这种事情。

当我尝试搜索电话号码时，也会出现此问题，当通过 78作为精确ngram的电话号码搜索 782时，我匹配包含字符 782的所有电子邮件。

似乎elasticsearch也在对我的搜索查询执行ngram，而不仅仅是在字段上进行比较，并且将两者进行了比较，并以某种方式倾向于较短的匹配更大。

这是我的查询:

{
    'bool': {
        'should': [ // Any one of these matches will return a result
            {
                'match': {
                    'phone': {
                        'query': $searchString,
                        'fuzziness': '0',
                        'boost': 3 // If phone matches give it precedence
                    }
                }
            },
            {
                'match': {
                    'email': {
                        'query': $searchString,
                        'fuzziness': '0'
                    }
                }
            },
            {
                'multi_match': {
                    'query': $searchString,
                    'type': 'cross_fields', // Match if any term is in any of the fields
                    'fields': ['name.first_name', 'name.last_name'],
                    'fuzziness': '0'
                }
            }
        ],
        'minimum_should_match': 1
    }
}

以及与此相关的索引设置(为冗长而道歉，但我不想排除任何可能很重要的内容):

{
    "settings":{
        "analysis":{
            "char_filter":{
                "trim":{
                    "type":"pattern_replace",
                    "pattern":"^\\s*(.*)\\s*$",
                    "replacement":"$1"
                },
                "tel_strip_chars":{
                    "type":"pattern_replace",
                    "pattern":"^(\\(\\d+\\))|^(\\+)|\\D",
                    "replacement":"$1$2"
                },
                "tel_uk_exit_coded":{
                    "type":"pattern_replace",
                    "pattern":"^00(\\d+)",
                    "replacement":"+$1"
                },
                "tel_parenthesized_country_code":{
                    "type":"pattern_replace",
                    "pattern":"^\\((\\d+)\\)(\\d+)",
                    "replacement":"+$1$2"
                }
            },
            "tokenizer":{
                "intl_tel_country_code": {
                    "type":"pattern",
                    "pattern":"\\+(9[976]\\d|8[987530]\\d|6[987]\\d|5[90]\\d|42\\d|3[875]\\d|2[98654321]\\d|9[8543210]|8[6421]|6[6543210]|5[87654321]|4[987654310]|3[9643210]|2[70]|7|1)(\\d{1,14})$",
                    "group":0
                }
            },
            "filter":{
                "autocomplete":{
                    "type":"edge_ngram",
                    "min_gram":1,
                    "max_gram":50
                },
                "autocomplete_tel":{
                    "type":"ngram",
                    "min_gram":3,
                    "max_gram":20
                },
                "email":{
                    "type":"pattern_capture",
                    "preserve_original":1,
                    "patterns":[
                        "([^@]+)",
                        "(\\p{L}+)",
                        "(\\d+)",
                        "@(.+)",
                        "([^-@]+)"
                    ]
                }
            },
            "analyzer":{
                "name":{
                    "type":"custom",
                    "tokenizer":"standard",
                    "filter":[
                        "trim",
                        "lowercase",
                        "asciifolding",
                        "autocomplete"
                    ]
                },
                "email":{
                    "type":"custom",
                    "tokenizer":"uax_url_email",
                    "filter":[
                        "trim",
                        "lowercase",
                        "email",
                        "unique",
                        "autocomplete"
                    ]
                },
                "phone":{
                    "type":"custom",
                    "tokenizer":"intl_tel_country_code",
                    "char_filter":[
                        "trim",
                        "tel_strip_chars",
                        "tel_uk_exit_coded",
                        "tel_parenthesized_country_code"
                    ],
                    "filter":[
                        "autocomplete_tel"
                    ]
                }
            }
        }
    },
    "mappings":{
        "person":{
            "properties":{
                "address":{
                    "properties":{
                        "country":{
                            "type":"string",
                            "index_name":"country"
                        }
                    }
                },
                "timezone":{
                    "type":"string"
                },
                "name":{
                    "properties":{
                        "first_name":{
                            "type":"string",
                            "analyzer":"name"
                        },
                        "last_name":{
                            "type":"string",
                            "analyzer":"name"
                        }
                    }
                },
                "email":{
                    "type":"string",
                    "analyzer":"email"
                },
                "phone":{
                    "type":"string",
                    "analyzer":"phone"
                },
                "id":{
                    "type":"string"
                }
            }
        }
    }
}

我已经使用Kopf插件的分析器测试了索引设置，它似乎可以创建正确的 token 。

理想情况下，我将只与索引创建的 token 完全匹配，并在我的bool应该查询中优先考虑更精确的匹配，而不是对多个bool应该匹配进行优先排序。

但是，如果它至少与确切的 token 匹配，我会很高兴。我不能使用 term搜索，因为我的搜索字符串本身需要被标记化，而无需对其应用任何ngram。

总结一下我的要求:

在任何单个字段中按最大可能匹配数得分最高。

然后在任何单个字段中按可能匹配的最低偏移量评分。

然后按匹配的字段数评分，优先考虑较低的偏移量匹配

---更新:---

我使用 dis_max获得了更好的结果，除了 phone字段仍然难以查询之外，它似乎已成功地在多个ngram匹配项上成功匹配了更大的ngram匹配项。这是新的查询:

{
    'dis_max': {
        'tie_breaker': 0.0,
        'boost': 1.5,
        'queries': [ // Any one of these matches will return a result
            [
                'match': {
                    'phone': {
                        'query': $searchString,
                        'boost': 1.9
                    }
                }
            ],
            [
                'match': {
                    'email': {
                        'query': $searchString
                    }
                }
            ],
            [
                'multi_match': {
                    'query': $searchString,
                    'type': 'cross_fields', // Match if any term is in any of the fields
                    'fields': ['name.first_name', 'name.last_name'],
                    'tie_breaker': 0.1,
                    'boost': 1.5
                }
            ]
        }
    }
}

最佳答案

可能您不想在搜索字符串上使用自动完成功能(即名称分析器)，仅在建立索引期间即映射应为:

"first_name": {
    "type":"string",
    "index_analyzer":"name"
}

同样，要在多次比赛中对first_name高于last_name的比赛评分，您可以提供以下字段级别的提升:

示例:last_name匹配项的相关性是first_name的一半

{
    'dis_max': {
        'tie_breaker': 0.0,
        'boost': 1.5,
        'queries': [ // Any one of these matches will return a result
            [
                'match': {
                    'phone': {
                        'query': $searchString,
                        'boost': 1.9
                    }
                }
            ],
            [
                'match': {
                    'email': {
                        'query': $searchString
                    }
                }
            ],
            [
                'multi_match': {
                    'query': $searchString,
                    'type': 'cross_fields', // Match if any term is in any of the fields
                    'fields': ['name.first_name', 'name.last_name^0.5'],
                    'tie_breaker': 0.1,
                    'boost': 1.5
                }
            ]
        }
    }
}

关于elasticsearch - Elasticsearch看似随机得分和匹配，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31606645/

文章推荐： .net - System.Net.ServicePointManager Singleton的范围是什么

文章推荐： .net - 使用客户端凭据的 Azure AD .NET 6 中的 token 无效

文章推荐： azure - 二头肌模板 ~ 在 ADLS 中创建目录

文章推荐： azure - 来自 VSTS 管道的 PowerShell 远程

string - (看似)相同的字符串以不同方式转换为大写
我在将两个“相同”字符串转换为大写时遇到了一个非常奇怪的问题。该程序正在从网站读取行并将其与存储在文本文件中的行进行比较。如果未找到该行，则将其添加到文件末尾。除非该行包含特殊字符，否则这非常有效。由
javascript - (看似)类中函数的冗余命名
我见过对象创建的各种模式，但在深入研究 Firefox 框架 Javascript 后，我注意到他们使用的是我以前从未见过的约定，我希望这里有人可以确认我的假设或纠正我: 在构建类时，我过去曾这样
C++(看似)随机编译器错误
多亏了我在 Oxfam 书店找到的一本小书和一本大书，我一直在研究 C、C++ 和 Allegro。我现在理解得很好，但我遇到了困难……每当我编译时，我都会遇到这些错误: archiboldian@a
ajax - 看似 'live'数据驱动的网站使用了哪些技术？
也许标题可以改写得稍微好一点，但基本上我想知道 facebook 之类的公司如何实现关于新通知/消息等的“实时”界面。我知道这样一个社交网络背后的复杂性太在这个小的 SO 线程中有很多讨论，但如果有人
r - 看似 protected 配对列表的垃圾收集
我想使用 R 的 C 接口(interface)编写一个 R 函数，该函数采用 2 列递增的非重叠整数间隔矩阵，并返回一个包含这些间隔加上一些附加间隔的列表，这样就没有间隙。例如，它应该取矩阵 rbi
java - 不平凡的(看似)StringIndexOutOfBoundsException
我们的崩溃日志系统显示崩溃，我不明白它是如何发生的。用户输入未知。我已添加日志记录，但结果只有在下一个版本(约 2 周)后才能看到。下面的代码如何抛出下一个异常: Crashes with java
JavaFX，命令顺序(看似)被忽略
我正在java1.7下使用JavaFX进行编程，除了这部分之外，所有内容都适用于我的代码。问题是，只有最终结果被写出来。当程序运行时，我希望它在标签中显示“Ping 测试正在运行”文本。但它不会这样做
C 函数返回(看似)随机整数
已关闭。这个问题是 not reproducible or was caused by typos 。目前不接受答案。这个问题是由拼写错误或无法再重现的问题引起的。虽然类似的问题可能是 on-top
c++ - 模板匹配两个(看似)不相关的类型
我有一个作用域枚举: enum class E { A, B, C }; 现在我想要一个函数，它接受该作用域 int 的值或 int 本身。应该是这样的: template ::value, int
python - 在(看似)无限循环中耗尽浮点精度
我有以下 Python 脚本: x = 300000000.0 while (x < x + x): x = x + x print "exec: " + str(x) print "
c - 为什么我总是看到多行宏包裹在(看似)毫无意义的循环中？
这个问题在这里已经有了答案: 关闭 11 年前。 Possible Duplicate: how does do{} while(0) work in macro? 示例来自 this博文: #de
language-agnostic - 为什么支持基于(看似)任意规则的不同数据类型之间的比较？
我的问题是：“语言设计者为什么要考虑允许在不同数据类型之间进行比较？”。另外，这在功能语言中是否更有意义？例如，在erlang中，可以执行以下比较： %% Tuples are greater th
performance - Haskell 在生成斐波那契数时(看似)随机暂停
我在玩 GHCI，遇到了这个(对我来说)奇怪的小东西。我试过这个: λ> let fibs = 1 : 1 : zipWith (+) fibs (tail fibs) λ> fibs 只是为了看看
testing - Grails 集成测试以(看似)随机且不可重复的方式失败
我们正在 Fixtures 的帮助下为我们的 Grails 2.0.0 应用程序编写集成测试。和 Buid-Test-Data插件。在测试过程中，发现集成测试有时会失败，有时会通过。运行“test-
python - 为什么我会得到一个(看似)正确拆分的字符串的 IndexError？
我目前有一个脚本应该获取并返回 Bit.ly 链接的点击次数。我首先从 Bitly url 收集和读取数据，我似乎在做正确的事情。 bitly_data = "https://api-ssl.
Python 多只 turtle (看似)同时移动
我正在为我的老师测试一些东西，他想看看如果我们模拟同步，下面的程序如何运行得更快(我知道它不可能完全同步，这只是为了实验学习/练习)多只 turtle 的运动。我尝试过使用诸如多处理、线程之类的模块，
c++ - GetFreeDiskSpaceEx 如何返回(看似)错误的磁盘空间量？
所以我在一个输出大图像(从 30MB 到 2GB+ 的任何地方)的设备上工作。在我们开始创建这些图像之一之前，我们通过 GetDiskFreeSpaceEx 检查是否有足够的磁盘空间。通常(在这种情况
assembly - 为什么 BIOS 需要在第二条指令中将(看似)随机地址中的值与零进行比较？
我正在尝试通过深入了解操作系统的底层细节来学习操作系统。我现在上的类(class)是MIT 6.828 Operating System Engineering 。该实验室要求学生追踪 BIOS 以获
string - 可能匹配(看似)无效的 Lua 模式
我知道你不能在 Lua 中重复匹配组。例如，如果我想匹配两个连续的 "45"，我不能这样做: print(string.find("some 4545 text", "(%d%d)+")) 这将打印
javascript - ng-class 的这种(看似)意外行为背后的解释是什么？
这是我创建的一个 plunker:http://plnkr.co/edit/ZoKsO7wu5OvCYtwEi9Iy?p=preview . 点击列表中使用 ng-repeat 渲染的项目之一，例如

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

elasticsearch - Elasticsearch看似随机得分和匹配