elasticsearch - elasticsearch match_phrase查询精确的子字符串搜索-6ren

elasticsearch - elasticsearch match_phrase查询精确的子字符串搜索

转载作者：行者123 更新时间：2023-12-02 23:44:21

26

4

我使用match_phrase查询来搜索全文匹配。

但是它没有按照我的想法工作。

查询:

POST /_search
{
  "query": {
    "bool": {
      "should": [
        {
          "match_phrase": {
            "browsing_url": "/critical-illness"
          }
        }
      ],
      "minimum_should_match": 1
    }
  }
}

结果:

"hits" : [
      {
        "_source" : {
          "browsing_url" : "https://www.google.com/url?q=https://industrytoday.co.uk/market-research-industry-today/global-critical-illness-commercial-insurance-market-to-witness-a-pronounce-growth-during-2020-2025&usg=afqjcneelu0qvjfusnfjjte1wx0gorqv5q"
        }
      },
      {
        "_source" : {
          "browsing_url" : "https://www.google.com/search?q=critical+illness"
        }
      },
      {
        "_source" : {
          "browsing_url" : "https://www.google.com/search?q=critical+illness&tbm=nws"
        }
      },
      {
        "_source" : {
          "browsing_url" : "https://www.google.com/search?q=do+i+have+a+critical+illness+-insurance%3f"
        }
      },
      {
        "_source" : {
          "browsing_url" : "https://www.google.com/search?q=do+i+have+a+critical+illness%3f"
        }
      }
    ]

期望:

To only get results where the given string is an exact sub-string in the field. For example:

https://www.example.com/critical-illness OR
https://www.example.com/critical-illness-insurance

对应:

"browsing_url": {
  "type": "text",
  "norms": false,
  "fields": {
    "keyword": {
      "type": "keyword",
      "ignore_above": 256
    }
  }
}

结果不是我预期的。我希望得到的结果与搜索/ critical-病完全一样，作为存储的文本的子字符串。

最佳答案

您看到意外结果的原因是，您的搜索查询和字段本身都是通过analyzer运行的。分析人员会将文本分解成可以搜索的单个术语列表。这是使用_analyze端点的示例:

GET _analyze
{
  "analyzer": "standard",
  "text": "example.com/critical-illness"
}

{
  "tokens" : [
    {
      "token" : "example.com",
      "start_offset" : 0,
      "end_offset" : 11,
      "type" : "<ALPHANUM>",
      "position" : 0
    },
    {
      "token" : "critical",
      "start_offset" : 12,
      "end_offset" : 20,
      "type" : "<ALPHANUM>",
      "position" : 1
    },
    {
      "token" : "illness",
      "start_offset" : 21,
      "end_offset" : 28,
      "type" : "<ALPHANUM>",
      "position" : 2
    }
  ]
}

因此，尽管您的文档的真实值是 example.com/critical-illness，但在后台Elasticsearch将仅使用此 token 列表进行匹配。由于您使用的是 match_phrase，因此对您的搜索查询也是如此，它会对传入的短语进行 token 化。最终结果是Elasticsearch尝试将 token 列表 ["critical", "illness"]与文档 token 列表进行匹配。

在大多数情况下， standard analyzer会很好地删除不必要的标记，但是，在您的情况下，您会关心像 /这样的字符，因为您希望与之匹配。解决此问题的一种方法是使用不同的分析器，例如 reversed path hierarchy analyzer。以下是如何配置此分析器并将其用于 browsing_url字段的示例:

PUT /browse_history
{
  "settings": {
    "analysis": {
      "analyzer": {
        "url_analyzer": {
          "tokenizer": "url_tokenizer"
        }
      },
      "tokenizer": {
        "url_tokenizer": {
          "type": "path_hierarchy",
          "delimiter": "/",
          "reverse": true
        }
      }
    }
  }, 
  "mappings": {
    "properties": {
      "browsing_url": {
        "type": "text",
        "norms": false,
        "analyzer": "url_analyzer",
        "fields": {
          "keyword": {
            "type": "keyword",
            "ignore_above": 256
          }
        }
      }
    }
  }
}

现在，如果您分析一个URL，您将看到URL路径保持完整:

GET browse_history/_analyze
{
  "analyzer": "url_analyzer",
  "text": "example.com/critical-illness?src=blah"
}

{
  "tokens" : [
    {
      "token" : "example.com/critical-illness?src=blah",
      "start_offset" : 0,
      "end_offset" : 37,
      "type" : "word",
      "position" : 0
    },
    {
      "token" : "critical-illness?src=blah",
      "start_offset" : 12,
      "end_offset" : 37,
      "type" : "word",
      "position" : 0
    }
  ]
}

这使您可以执行 match_phrase_prefix来查找所有URL包含 critical-illness路径的文档:

POST /browse_history/_search
{
  "query": {
    "match_phrase_prefix": {
      "browsing_url": "critical-illness"
    }
  }
}

{
  "took" : 0,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 2,
      "relation" : "eq"
    },
    "max_score" : 1.7896894,
    "hits" : [
      {
        "_index" : "browse_history",
        "_type" : "_doc",
        "_id" : "3",
        "_score" : 1.7896894,
        "_source" : {
          "browsing_url" : "https://www.example.com/critical-illness"
        }
      }
    ]
  }
}

编辑:

修订前的先前答案是使用关键字字段和 regexp，但这是一个非常昂贵的查询。

POST /browse_history/_search
{
  "query": {
    "regexp": {
      "browsing_url.keyword": ".*/critical-illness"
    }
  }
}

关于elasticsearch - elasticsearch match_phrase查询精确的子字符串搜索，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/62460687/

26

4

0

文章推荐： powershell - 如何返回使用New-Variable创建的新变量的长度

文章推荐： variables - 使用Powershell替换CSV中的变量

文章推荐： objective-c - 以编程方式取消静音OSX中的音频输入(麦克风)

r - 转换错误 - .subset2(x, i, 精确 = 精确) 中的错误
感觉我在这里遗漏了一些明显的东西，所以提前道歉。无论如何，这是我尝试转换的一些数据a: acct_num year_prem prem exc 001 20
c# - 精确/文字单词或模式匹配正则表达式
我正在尝试将表中的模式与用户话语匹配。 string userUtterance = "I want identification number for number of customers";
linux - gccgo 精确
当尝试在 Precise 上链接 gccgo 时，出现此链接错误: matt@matt-1005P:~/src/gopath/src/meme$ gccgo cmd/meme/main.go -o m
matlab - 样条插值及其(精确)导数
假设我有以下数据和命令: clc;clear; t = [0:0.1:1]; t_new = [0:0.01:1]; y = [1,2,1,3,2,2,4,5,6,1,0]; p = interp1(
matlab - 样条插值及其(精确)导数
假设我有以下数据和命令: clc;clear; t = [0:0.1:1]; t_new = [0:0.01:1]; y = [1,2,1,3,2,2,4,5,6,1,0]; p = interp1(
java - 精确 PrefixQuery 得分更高
我总是想给精确匹配比只匹配前缀的分数更高的分数(例如，“ball”在与“ball*”匹配时应该比“ballistic”得到更高的分数)。我当前(详细)的方法是在创建 PrefixQuery 时始终执
Android MediaPlayer seekTo 精确
有什么解决方法可以让我在 Android 中使用 long 或 double 来寻找音频文件中的位置吗？目前 seekTo 只接受 ints 参数。我想更精确(比如在十分之一秒内) int resID
Swift 3 replacingOccurrences 精确
我的 replacingOccurrences 函数有问题。我有一个这样的字符串: let x = "john, johnny, johnney" 我需要做的只是删除“john” 所以我有这段代码:
python - 精确标签值时出错 - BeautifulSoup
我正在使用 BeautifulSoup 进行网页抓取。我有这段代码来提取 a 标签的值，但它似乎不起作用。显示错误: AttributeError: 'int' object has no attri
algorithm - 精确(纠错)图匹配算法
我要在带有标记顶点和标记有向边的图上寻找一种不精确的图匹配算法。我的任务是检测两个图表的变化以将它们显示给开发人员(想想颠覆差异)。我已经实现了基于禁忌搜索 ( this ) 的优化算法，但我无法让该
apache - .htaccess 精确 url 重定向
我有两个网站: example.com 和 yyy.com 他们都有类似的网络应用程序，但在不同的服务器上。我想让 Apache 将所有路径请求重定向到 example.com 与完全相同的方式yy
php - MySQL 精确 URL 搜索
因此，我尝试合并两个公司信息数据库(从现在起表 A 和表 B)，其中最常见(且可靠)的单一引用点是网站 URL。表 A 已更新，表 B 待更新。我已经从表 A 中提取了 URL，并使用 PHP 清理
javascript - 为什么距离的这种指数衰减会导致 99 [精确] 的一次性误差？
我正在 http://classicorthodoxbible.com/new.html 上制作效果主要描述中的 Angular 色，包裹在自己的跨度中，从他们通常的休息地点移动到随机位置，然后通过指
用于实时音频合成的 C++ 精确 44100Hz 时钟
我目前正在使用我的 Raspberry Pi 及其内置 UART 输入编写 MIDI 合成器。在某个时间点，为了启用 MIDI 输入的实时回放，我必须设置一种环形缓冲区以与 OpenAL 一起使用，
c - 使 C float 精确？
在 C 中，当设置了一个 float 时， int main(int argc, char *argv[]) { float temp = 98.6f; printf("%f\n",
ios - 循环 MP3 精确 iOS
实现 MP3 无间隙循环的最佳可能性是什么？目前我正在使用 AVAudioPlayer 并将 .numberOfLoops() 属性设置为 -1 但可以听到，轨道重新启动。情况并非如此，例如使用 Tr
r - "matrix-like?"的(精确)含义是什么
我想创建不一定是“正确”矩阵的“类矩阵”对象。但是，确切地说，“类矩阵”是什么意思？示例 1 > image(1:9) Error in image.default(1:9) : argument
java - 如何生成包含已解析实体的 XML 文档的*精确*副本
给定一个像这样的 XML 文档: john &title; 我想解析上面的 XML 文档并生成其所有实体已解析的副本。因此，给定上述 XMl 文档，解析器应输出: john
plone - 有一种方法可以在 Plone 中*精确*即时调整图像对象的大小吗？
需要说明的是，这种方法不是我要找的: 事实上，此方法会调整 ImageField 的大小。我想将 Image 对象的大小调整为特定且精确的无比例分辨率。有什么办法吗？ --编辑-- 对我来说，Ima
python - 急切模式下的 TFP 精确 GP 回归
我正在尝试使用 TF2.0 eager 模式执行精确的 GP 回归，基于来自 https://colab.research.google.com/github/tensorflow/probabili

首页

博学

6Ren·AI

商城

elasticsearch - elasticsearch match_phrase查询精确的子字符串搜索