- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在使用bool
搜索来匹配多个字段。在索引时间使用多个过滤器对字段进行了分析,但主要使用edge_ngram
。
我遇到的问题是评分似乎悬而未决。我希望对savvas
的搜索首先与first_name
的Savvas
字段之一匹配,但它们的得分要晚得多。例如,对savvas
的搜索按得分顺序返回:
First name | Last name | Email
___________|_________________|________________________
------ | Sav--- | ---@sa-------------.com
-----s | Sa---- | sa----------s@-----.com
Sa---- | ---- | sa---------@-------.com
Sa---- | -------- | sa-------@---------.com
sa- | ----- | sa----------@------.com
Sa-- | ----s-----s | sa------s-----s@---.com
Sa---- | ----------- | sa-----@-----------.com
Savvas | -------s | ----------@--------.com
Savvas | -------s | --------@----------.com
Sa- | ---s----S------ | sa------s-----@----.com
-
替换了字段中搜索词的边缘n-gram以外的其他字符,并修改了电子邮件的长度以保护身份。
ssssssssssssssss
(尽管我的数据中不存在)会返回其中
s
字符数最多的项目。我没有为搜索做任何手动ngram,所以我不希望发生这种事情。
78
作为精确ngram的电话号码搜索
782
时,我匹配包含字符
782
的所有电子邮件。
{
'bool': {
'should': [ // Any one of these matches will return a result
{
'match': {
'phone': {
'query': $searchString,
'fuzziness': '0',
'boost': 3 // If phone matches give it precedence
}
}
},
{
'match': {
'email': {
'query': $searchString,
'fuzziness': '0'
}
}
},
{
'multi_match': {
'query': $searchString,
'type': 'cross_fields', // Match if any term is in any of the fields
'fields': ['name.first_name', 'name.last_name'],
'fuzziness': '0'
}
}
],
'minimum_should_match': 1
}
}
{
"settings":{
"analysis":{
"char_filter":{
"trim":{
"type":"pattern_replace",
"pattern":"^\\s*(.*)\\s*$",
"replacement":"$1"
},
"tel_strip_chars":{
"type":"pattern_replace",
"pattern":"^(\\(\\d+\\))|^(\\+)|\\D",
"replacement":"$1$2"
},
"tel_uk_exit_coded":{
"type":"pattern_replace",
"pattern":"^00(\\d+)",
"replacement":"+$1"
},
"tel_parenthesized_country_code":{
"type":"pattern_replace",
"pattern":"^\\((\\d+)\\)(\\d+)",
"replacement":"+$1$2"
}
},
"tokenizer":{
"intl_tel_country_code": {
"type":"pattern",
"pattern":"\\+(9[976]\\d|8[987530]\\d|6[987]\\d|5[90]\\d|42\\d|3[875]\\d|2[98654321]\\d|9[8543210]|8[6421]|6[6543210]|5[87654321]|4[987654310]|3[9643210]|2[70]|7|1)(\\d{1,14})$",
"group":0
}
},
"filter":{
"autocomplete":{
"type":"edge_ngram",
"min_gram":1,
"max_gram":50
},
"autocomplete_tel":{
"type":"ngram",
"min_gram":3,
"max_gram":20
},
"email":{
"type":"pattern_capture",
"preserve_original":1,
"patterns":[
"([^@]+)",
"(\\p{L}+)",
"(\\d+)",
"@(.+)",
"([^-@]+)"
]
}
},
"analyzer":{
"name":{
"type":"custom",
"tokenizer":"standard",
"filter":[
"trim",
"lowercase",
"asciifolding",
"autocomplete"
]
},
"email":{
"type":"custom",
"tokenizer":"uax_url_email",
"filter":[
"trim",
"lowercase",
"email",
"unique",
"autocomplete"
]
},
"phone":{
"type":"custom",
"tokenizer":"intl_tel_country_code",
"char_filter":[
"trim",
"tel_strip_chars",
"tel_uk_exit_coded",
"tel_parenthesized_country_code"
],
"filter":[
"autocomplete_tel"
]
}
}
}
},
"mappings":{
"person":{
"properties":{
"address":{
"properties":{
"country":{
"type":"string",
"index_name":"country"
}
}
},
"timezone":{
"type":"string"
},
"name":{
"properties":{
"first_name":{
"type":"string",
"analyzer":"name"
},
"last_name":{
"type":"string",
"analyzer":"name"
}
}
},
"email":{
"type":"string",
"analyzer":"email"
},
"phone":{
"type":"string",
"analyzer":"phone"
},
"id":{
"type":"string"
}
}
}
}
}
term
搜索,因为我的搜索字符串本身需要被标记化,而无需对其应用任何ngram。
dis_max
获得了更好的结果,除了
phone
字段仍然难以查询之外,它似乎已成功地在多个ngram匹配项上成功匹配了更大的ngram匹配项。这是新的查询:
{
'dis_max': {
'tie_breaker': 0.0,
'boost': 1.5,
'queries': [ // Any one of these matches will return a result
[
'match': {
'phone': {
'query': $searchString,
'boost': 1.9
}
}
],
[
'match': {
'email': {
'query': $searchString
}
}
],
[
'multi_match': {
'query': $searchString,
'type': 'cross_fields', // Match if any term is in any of the fields
'fields': ['name.first_name', 'name.last_name'],
'tie_breaker': 0.1,
'boost': 1.5
}
]
}
}
}
最佳答案
可能您不想在搜索字符串上使用自动完成功能(即名称分析器),仅在建立索引期间即映射应为:
"first_name": {
"type":"string",
"index_analyzer":"name"
}
{
'dis_max': {
'tie_breaker': 0.0,
'boost': 1.5,
'queries': [ // Any one of these matches will return a result
[
'match': {
'phone': {
'query': $searchString,
'boost': 1.9
}
}
],
[
'match': {
'email': {
'query': $searchString
}
}
],
[
'multi_match': {
'query': $searchString,
'type': 'cross_fields', // Match if any term is in any of the fields
'fields': ['name.first_name', 'name.last_name^0.5'],
'tie_breaker': 0.1,
'boost': 1.5
}
]
}
}
}
关于elasticsearch - Elasticsearch看似随机得分和匹配,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31606645/
我在将两个“相同”字符串转换为大写时遇到了一个非常奇怪的问题。该程序正在从网站读取行并将其与存储在文本文件中的行进行比较。如果未找到该行,则将其添加到文件末尾。除非该行包含特殊字符,否则这非常有效。由
我见过对象创建的各种模式,但在深入研究 Firefox 框架 Javascript 后,我注意到他们使用的是我以前从未见过的约定,我希望这里有人可以确认我的假设或纠正我: 在构建类时,我过去曾这样
多亏了我在 Oxfam 书店找到的一本小书和一本大书,我一直在研究 C、C++ 和 Allegro。我现在理解得很好,但我遇到了困难……每当我编译时,我都会遇到这些错误: archiboldian@a
也许标题可以改写得稍微好一点,但基本上我想知道 facebook 之类的公司如何实现关于新通知/消息等的“实时”界面。我知道这样一个社交网络背后的复杂性太在这个小的 SO 线程中有很多讨论,但如果有人
我想使用 R 的 C 接口(interface)编写一个 R 函数,该函数采用 2 列递增的非重叠整数间隔矩阵,并返回一个包含这些间隔加上一些附加间隔的列表,这样就没有间隙。例如,它应该取矩阵 rbi
我们的崩溃日志系统显示崩溃,我不明白它是如何发生的。用户输入未知。我已添加日志记录,但结果只有在下一个版本(约 2 周)后才能看到。 下面的代码如何抛出下一个异常: Crashes with java
我正在java1.7下使用JavaFX进行编程,除了这部分之外,所有内容都适用于我的代码。问题是,只有最终结果被写出来。当程序运行时,我希望它在标签中显示“Ping 测试正在运行”文本。但它不会这样做
已关闭。这个问题是 not reproducible or was caused by typos 。目前不接受答案。 这个问题是由拼写错误或无法再重现的问题引起的。虽然类似的问题可能是 on-top
我有一个作用域枚举: enum class E { A, B, C }; 现在我想要一个函数,它接受该作用域 int 的值或 int 本身。 应该是这样的: template ::value, int
我有以下 Python 脚本: x = 300000000.0 while (x < x + x): x = x + x print "exec: " + str(x) print "
这个问题在这里已经有了答案: 关闭 11 年前。 Possible Duplicate: how does do{} while(0) work in macro? 示例来自 this博文: #de
我的问题是:“语言设计者为什么要考虑允许在不同数据类型之间进行比较?”。另外,这在功能语言中是否更有意义? 例如,在erlang中,可以执行以下比较: %% Tuples are greater th
我在玩 GHCI,遇到了这个(对我来说)奇怪的小东西。 我试过这个: λ> let fibs = 1 : 1 : zipWith (+) fibs (tail fibs) λ> fibs 只是为了看看
我们正在 Fixtures 的帮助下为我们的 Grails 2.0.0 应用程序编写集成测试。和 Buid-Test-Data插件。 在测试过程中,发现集成测试有时会失败,有时会通过。运行“test-
我目前有一个脚本应该获取并返回 Bit.ly 链接的点击次数。我首先从 Bitly url 收集和读取数据,我似乎在做正确的事情。 bitly_data = "https://api-ssl.
我正在为我的老师测试一些东西,他想看看如果我们模拟同步,下面的程序如何运行得更快(我知道它不可能完全同步,这只是为了实验学习/练习)多只 turtle 的运动。我尝试过使用诸如多处理、线程之类的模块,
所以我在一个输出大图像(从 30MB 到 2GB+ 的任何地方)的设备上工作。在我们开始创建这些图像之一之前,我们通过 GetDiskFreeSpaceEx 检查是否有足够的磁盘空间。通常(在这种情况
我正在尝试通过深入了解操作系统的底层细节来学习操作系统。我现在上的类(class)是MIT 6.828 Operating System Engineering 。该实验室要求学生追踪 BIOS 以获
我知道你不能在 Lua 中重复匹配组。例如,如果我想匹配两个连续的 "45",我不能这样做: print(string.find("some 4545 text", "(%d%d)+")) 这将打印
这是我创建的一个 plunker:http://plnkr.co/edit/ZoKsO7wu5OvCYtwEi9Iy?p=preview . 点击列表中使用 ng-repeat 渲染的项目之一,例如
我是一名优秀的程序员,十分优秀!