tokenize - Elasticsearch - 如何在使用小写过滤器时保留大写首字母缩略词？-6ren

tokenize - Elasticsearch - 如何在使用小写过滤器时保留大写首字母缩略词？

转载作者：行者123 更新时间：2023-12-04 17:57:58

25

4

在 Elasticsearch 2.x 中，我如何区分首字母缩略词“CAN”和常见的英语单词“can”，同时仍然在我的分析器中使用“小写”过滤器(用于搜索不区分大小写)？

我使用的自定义分析器是:

"analyzer": {
    "tight": {
        "type": "custom",
        "tokenizer": "standard",
        "stopwords": "_english_",
        "filter": ["lowercase", "asciifolding"]
    }
}

在索引时，当大写字母“CAN”命中我的分析器时，它变成了英文单词“can”。然后，当我搜索“CAN”时，我得到了所有包含英文单词“can”的文档。我只想要包含大写单词“CAN”的文档。可能还有其他属于类似模式的首字母缩略词。

解决这个问题的最佳方法是什么？

最佳答案

实现它的一种方法是创建另一个不带 lowercase 标记过滤器的分析器，并在主字段的子字段上使用该分析器。它是这样的:

使用两个分析器 tight 和 tight_acronym 创建索引。前者赋给字段，后者赋给field.acronyms子字段:

PUT index
{
  "settings": {
    "analysis": {
      "analyzer": {
        "tight": {
          "type": "custom",
          "tokenizer": "standard",
          "filter": [
            "lowercase",
            "asciifolding"
          ]
        },
        "tight_acronym": {
          "type": "custom",
          "tokenizer": "standard",
          "filter": [
            "asciifolding"
          ]
        }
      }
    }
  },
  "mappings": {
    "test": {
      "properties": {
        "field": {
          "type": "string",
          "analyzer": "tight",
          "fields": {
            "acronyms": {
              "type": "string",
              "analyzer": "tight_acronym"
            }
          }
        }
      }
    }
  }
}

然后我们索引两个文档:

PUT index/test/1
{ "field": "It is worth CAN 300" }
PUT index/test/2
{ "field": "can you do it?" }

然后，如果您搜索 CAN(在子字段上)，您将获得第一个文档

POST index/test/_search
{
  "query": {
    "match": {
      "field.acronyms": "CAN"
    }
  }
}

如果您搜索 can(在主字段上)，您将获得第二个文档

POST index/test/_search
{
  "query": {
    "match": {
      "field": "can"
    }
  }
}

关于tokenize - Elasticsearch - 如何在使用小写过滤器时保留大写首字母缩略词？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38778499/

25

4

0

文章推荐： python - 基于局部变量的Django条件过滤器

文章推荐： r - crosstable() 导出到 csv

文章推荐： javascript - 按顺序运行测试文件？

php - 用于检查重复字符或数字的正则表达式，检查小写、大写、大写
请帮助我..我被困在这里.. 我真正想要的是检查密码是否重复单个字符或数字。重复要求 aaaa = 假， abbb = 假 abag = 假 a33f = 假 abcd1234 = 真一个字符在密
regex - 大写，小写，大写 Ant 属性
在 Ant 中，我有一个名为 ' some_property 的属性。 '，假设它的值为“hello”。我正在尝试替换文本文件中的占位符将此属性的值(“ hello ”)作为大写 . 所以，我
javascript - Javascript 中的数组排序.. 大写，大写，小，小顺序
var temp=["dy34","fd","FD","av","AV","12esu",1,"DY34",1011,123,101]; 当我对数组进行排序时，我得到的结果是: result = [1
JavaScript 大写
var font_name = $(".font").val(); 我的 JavaScript 代码中有这个。在我的 html 中，我有一个带有 .font 类的输入表单。我想将 .font 中每个
sIFR 3 大写
有人可以解释一下我如何实现文本转换:大写； sIFR 3 的功能？在文档上，它解释了如何使用它，但我真的不知道如何实现它。有人可以举个例子吗？ Specifes text transformatio
java - 如何在另一个字符串中查找字符串并忽略小写/大写？
这个问题已经有答案了: String contains - ignore case [duplicate] (5 个回答) 已关闭 3 年前。我需要定义我的查询是 DDL 还是 DML。为此，我需要
java - 大写、小写等计数器
所以我一直在用 Java 编写一小段代码，它从用户那里获取输入，计算大写字母、小写字母和其他部分(例如空格、数字，甚至括号)，然后返回每个部分的数量用户。我遇到的问题是，如果我输入“Hello Th
javascript - 通过使用点添加值将数组更改为对象(大写)
使用点符号向数组添加属性是否会将其更改为对象？ var arr = []; arr.something = "test"; 是数组吗？我不这么认为，但 underscore.js 说是 consol
wpf - 如何使所有文本大写/大写？
我希望 TextBlock、Label、MenuItem.Header 中的所有文本都以大写显示。字符串取自 ResourceDictionary 例如: 等等。 (也适用于 Label 和其他控
excel - VBA Countif 大写
我正在尝试计算包含用户定义范围内所有大写字符的单元格实例的数量，我已经有一些代码可以循环并正确突出显示这些大写单元格，但我正在努力应用该逻辑到VBA 的 Countif 函数。这是我得到的代码，但它给
r - 用 dplyr 大写
我正在使用 dplyr 进行数据清理。我想做的一件事是将某些列中的值大写。 data$surname john Mary John mary ...
ng-if 指令中的 AngularJS 大写
为什么低于一个不起作用？我需要转换 IsValue转换成大写值，然后需要用 NO 检查它值(value)。我该怎么做？ {{item.IsValue}} 最佳答案确保 uppercase在比较
netbeans - 如何在Netbeans中编码模板变量以大写|小写|大写？
我需要将相同的变量转换为大写|小写|大写。 /** * @package ${1 default="Hello"} * @subpackage ${com}_${1 capitalize
unicode - 大写 utf8 字符是否总是与其小写变体的字节数相同？
显然，拉丁字母表也是如此。但我是在概念上提出这个问题，跨越语言和 Unicode 规范。实际上，这是为了比较两个字符串。如果你已经知道它们的字节数不同——在所有语言中——你能认为这足以保证它们不是同
markdown - 新帖子中的 Octopress 大写
今天我更新了我的 Octopress 博客，当我运行时: rake new_post["This is a test of title"] 它在 source/_post/2013-02-18-thi
java - PigLatin 程序帮助...大写？
除了大写部分之外，我的程序正在运行:以下是将英语单词 englishWord 翻译为 Pig 拉丁语单词 pigLatinWord 的方法:A。如果英语单词中没有元音，那么pigLatinWord就是
javascript - 逐字符反转输入值的大小写(小写/大写)
通过使用一个输入文本框，输入类型只允许字母。输入的值为'a'，它应该在文本框外显示为'A'？如果我们在输入文本中输入小写字母“a”，那么它会希望在框外显示大写字母“A”...以下是我的html代码:
javascript - 高级检查字符串中的字母大小写(大写/小写)
我正在开发一个特殊的脚本来修复文本区域内的字母。我在堆叠时发现了一个问题。在 Stackoverflow 上，我找不到解决方案，需要帮助。我的脚本有一个系统，用于识别每个以大写首字母开头的单词，以及
bash - 大写 bash 变量
我在 bash 中有以下行: echo "Manufacturer: $(echo ${family:-$name}|cut -d' ' -f1)" 我想使用 ${var^} 语法将回显字符串大写，但

首页

博学

6Ren·AI

商城

tokenize - Elasticsearch - 如何在使用小写过滤器时保留大写首字母缩略词？