elasticsearch query_string 处理特殊字符-6ren

elasticsearch query_string 处理特殊字符

转载作者：行者123 更新时间：2023-12-03 01:17:49

26

4

我的数据库与 Elasticsearch 同步，以优化我们的搜索结果并更快地请求。

我在查询用户时遇到问题，我想通过查询来查找我的用户，它可以是姓名、电话、IP、...

我的实际查询是

query_string: { fields: ['id', 'email', 'firstName', 'lastName', 'phone', 'ip'], query: `*${escapeElastic(req.query.search.toString().toLowerCase())}*`}

在哪里 req.query.search是我的搜索和escapeElastic来自节点模块 elasticsearch-sanitize因为我对一些符号有疑问。

我有一些问题，例如，如果我查询 ipv6，我会得到 query: '*2001\\:0db8*'但它不会在数据库中找到任何东西，它应该

其他问题，如果我有名字为 john-doe 的人，我的查询将是 query: '*john\\-doe*'它不会找到任何结果。

似乎转义可以防止查询错误，但在我的情况下会产生一些问题。

不知道有没有 query_string是满足我要求的更好方法，我愿意接受优化此查询的建议

谢谢

最佳答案

我怀疑您字段上的分析器是 standard 或类似的。这意味着像 : 这样的字符和 -被剥夺:

GET _analyze
{
  "text": "John-Doe",
  "analyzer": "standard"
}

显示

{
  "tokens" : [
    {
      "token" : "john",
      "start_offset" : 0,
      "end_offset" : 4,
      "type" : "<ALPHANUM>",
      "position" : 0
    },
    {
      "token" : "doe",
      "start_offset" : 5,
      "end_offset" : 8,
      "type" : "<ALPHANUM>",
      "position" : 1
    }
  ]
}

让我们创建自己的分析器，它将保留特殊字符，但同时将所有其他字符小写:

PUT multisearch
{
  "settings": {
    "analysis": {
      "analyzer": {
        "with_special_chars": {
          "tokenizer": "whitespace",
          "filter": [
            "lowercase"
          ]
        }
      }
    }
  },
  "mappings": {
    "properties": {
      "firstName": {
        "type": "text",
        "fields": {
          "with_special_chars": {
            "type": "text",
            "analyzer": "with_special_chars"
          }
        }
      },
      "ip": {
        "type": "ip",
        "fields": {
          "with_special_chars": {
            "type": "text",
            "analyzer": "with_special_chars"
          }
        }
      }
    }
  }
}

摄取 2 个示例文档:

POST multisearch/_doc
{
  "ip": "2001:0db8:85a3:0000:0000:8a2e:0370:7334"
}

POST multisearch/_doc
{
   "firstName": "John-Doe"
}

并从上面应用您的查询:

GET multisearch/_search
{
  "query": {
    "query_string": {
      "fields": [
        "id",
        "email",
        "firstName.with_special_chars",
        "lastName",
        "phone",
        "ip.with_special_chars"
      ],
      "query": "2001\\:0db8* OR john-*"
    }
  }
}

两个命中都返回。

两点说明:1)注意我们正在搜索 .with_special_chars而不是主要字段和 2)我已经从 ip 中删除了前导通配符——这些都是非常低效的。

自从您询问优化建议以来的最后提示:查询可以重写为

GET multisearch/_search
{
  "query": {
    "bool": {
      "should": [
        {
          "term": {
            "id": "tegO63EBG_KW3EFnvQF8"
          }
        },
        {
          "match": {
            "email": "john@doe.com"
          }
        },
        {
          "match_phrase_prefix": {
            "firstName.with_special_chars": "john-d"
          }
        },
        {
          "match_phrase_prefix": {
            "firstName.with_special_chars": "john-d"
          }
        },
        {
          "match": {
            "phone.with_special_chars": "+151351"
          }
        },
        {
          "wildcard": {
            "ip.with_special_chars": {
              "value": "2001\\:0db8*"
            }
          }
        }
      ]
    }
  }
}

部分id匹配可能有点过头了——term捕获与否

email可以简单match编

first- & lastName : 我怀疑 match_phrase_prefix比 wildcard 更高效或 regexp所以我会同意(只要你不需要领先的 * )

phone可以是match ed 但请确保也可以匹配特殊字符(如果您使用国际格式)

使用 wildcard对于ip -- 与查询字符串中的语法相同

试试上面的方法，看看你是否注意到任何速度改进!

关于elasticsearch query_string 处理特殊字符，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/61640936/

26

4

0

文章推荐： python-3.x - 在 Cartopy 中使用 Google map 图 block

文章推荐： powershell - 汇总ADSI LDAP查询

java - 查看端口问题中的元素[特殊]
我以一种特殊的方式收到以下错误。 The point at which the driver is attempting to click on the element was not scrolle
java - “特殊” APP用例
我有一些包含如下方法的编译库： public boolean foo(String userID) { Class ntSystemClass = Thread.currentThread()
MySQL 特殊 ORDER BY
假设我有下表 name | genre --------------------- book 1 | scifi book 2 | horror book 3
ios - 特殊 - 字符串中的汉字
我正在用代码进行语言翻译。 self.title.text = [NSString stringWithFormat:NSLocalizedString(@"Q%ld", nil), (long)qu
r - 询问〜特殊〜并返回答案的函数
我想这样做，但到目前为止，我所拥有的只是: print("Will you go out with me?") 我希望代码能够正常工作，以便人们可以回答“是/否”，如果回答是"is"，则将返回一条消息
c# - 特殊 HTML 字符
这个问题在这里已经有了答案: 关闭 11 年前。 Possible Duplicate: How can I decode html characters in c#? 我有来自 HTML 的字符，
javascript - 特殊 ucwords 的正则表达式
我想在 JavaScript 中对以下形式的字符串执行 ucwords()，它应该返回 Test1_Test2_Test3。我已经在 SO 上找到了一个 ucwords 函数，但它只需要空格作为新词
javascript - 两个数组的求和\相加(特殊)
“任何长度的正数表示为数字字符数组，因此介于‘0’和‘9’之间。我们知道最重要的密码位于数组索引 0 的位置。例子: - 号码是 10282 - 数组将是数字 = [1,0,2,8,2] 考虑到这一
Android 特殊 Unicode 字符
我目前正在开发一个显示特殊 unicode 字符(例如 ꁴ)的应用现在我遇到了在旧设备上无法显示这些符号的问题。我如何知道它是否适用于当前设备？我是否必须为每个 SDK 版本创建一个虚拟 Andr
html - 特殊 HTML 构造标签的名称
在 HTML、XML 和部分 DTD 中，有两种特殊的标记结构: 以感叹号开头的标签结束，例如和以问号开头的标签，例如和我的问题是，这些构造类型中的每一种是否都有不同的名称，或者我是否必
Python stdout 重定向(特殊)
我目前正在用 python 构建一个 shell。shell 可以执行 python 文件，但我还需要添加使用 PIPE 的选项(例如“|”表示第一个命令的输出将是第二个命令的输入)。为了做到这一点
c# - 特殊 MVC 路由不起作用
我的 MVC 项目中的路由无法正常工作... 我希望我所有的 View 都在 Views > Shared 文件夹中，如下所示: Error.cshtml (default) Index.cshtml
Java - 特殊 URL 字符
我有一个函数: public static ImageIcon GetIconImageFromResource(String path){ URL url = ARMMain.class.g
html - 特殊 HTML 字符
好的，所以我想在我的 html 页面中包含下面的字符。看起来很简单，只是我找不到它们的 HTML 编码。注意:我想在没有大小元素的情况下执行此操作，纯文本就可以了 ^_^。干杯。最佳答案你可以
java - 特殊 Java 注释标签的完整列表
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭 3 年前。
c# - 特殊(或外国)字符
我是 C# 的新手，正在尝试使用 ASP.Net GridView(框架 3.5)，当 gridView 文本包含以下内容时，我发现了一个大问题: ñ/Ñ/á/Á/é/É/í/Í/ó/Ó/ú/Ú or
特殊 URL 的 Java 正则表达式
在 Java 中，我尝试编写一个正则表达式来匹配特殊类型的 HTTP URL: http:///# 所以字符串有 4 段: 字符串文字:“http://”；那么任意 1 个以上字符的字符串；那么字
mysql 有内部(特殊)字 "to"吗？
当我写查询时，我在表中有“to”列 SELECT to FROM mytable mysql_error 返回错误，如果将单词to插入``引号，即 SELECT `to` FROM mytable 查
python - 匹配大写/特殊/unicode/越南字符的正则表达式
我遇到了一个问题。事实上，我使用越南语文本，我想找到每个包含大写字母(大写字母)的单词。当我使用“re”模块时，我的函数 (temp) 没有捕捉到像“Đà”这样的词。另一种方法 (temp2) 是一次
python - 替换多个(特殊)字符 - 最有效的方法？
在我的文本中，我想用一个空格替换以下特殊字符: symbols = ["`", "~", "!", "@", "#", "$", "%", "^", "&", "*", "(", ")", "_",

首页

博学

6Ren·AI

商城

elasticsearch query_string 处理特殊字符