Elasticsearch 完全匹配分析的字段-6ren

Elasticsearch 完全匹配分析的字段

转载作者：行者123 更新时间：2023-11-29 02:43:44

29

4

有没有办法让 ElasticSearch 识别分析字段的精确匹配？理想情况下，我想对我的文档进行小写、标记化、词干化甚至语音化，然后让查询拉出“精确”匹配项。

我的意思是，如果我索引“Hamburger Buns”和“Hamburgers”，它们将被分析为 ["hamburger","bun"] 和 ["hamburger"]。如果我搜索“汉堡包”，它只会返回“汉堡包”文档，因为这是“精确”匹配。

我试过使用关键字标记生成器，但这不会阻止单个标记。我需要做些什么来确保 token 的数量相等吗？

我熟悉多字段和使用“not_analyzed”类型，但这比我正在寻找的更严格。我想要精确匹配，事后分析。

最佳答案

将 shingles tokenizer 与词干提取以及您需要的任何其他内容一起使用。添加类型为 token_count 的子字段，该字段将计算字段中的标记数。

在搜索时，您需要添加一个额外的过滤器来匹配索引中的标记数与搜索文本中的标记数。您将需要一个额外的步骤，当您执行实际搜索时，应该计算搜索字符串中的标记。之所以这样，是因为带状疱疹会创建多个标记排列，您需要确保它与搜索文本的大小相匹配。

一个尝试，只是给你一个想法:

{
  "settings": {
    "analysis": {
      "filter": {
        "filter_shingle": {
          "type": "shingle",
          "max_shingle_size": 10,
          "min_shingle_size": 2,
          "output_unigrams": true
        },
        "filter_stemmer": {
          "type": "porter_stem",
          "language": "_english_"
        }
      },
      "analyzer": {
        "ShingleAnalyzer": {
          "tokenizer": "standard",
          "filter": [
            "lowercase",
            "snowball",
            "filter_stemmer",
            "filter_shingle"
          ]
        }
      }
    }
  },
  "mappings": {
    "test": {
      "properties": {
        "text": {
          "type": "string",
          "analyzer": "ShingleAnalyzer",
          "fields": {
            "word_count": {
              "type": "token_count",
              "store": "yes",
              "analyzer": "ShingleAnalyzer"
            }
          }
        }
      }
    }
  }
}

和查询:

{
  "query": {
    "filtered": {
      "query": {
        "match_phrase": {
          "text": {
            "query": "HaMbUrGeRs BUN"
          }
        }
      },
      "filter": {
        "term": {
          "text.word_count": "2"
        }
      }
    }
  }
}

shingles 过滤器在这里很重要，因为它可以创建标记组合。更重要的是，这些是保持顺序或 token 的组合。 Imo，这里最难实现的要求是更改标记(词干提取、小写等)，并且还要组装回原始文本。除非您定义自己的“串联”过滤器，否则我认为除了使用 shingles 过滤器之外别无他法。

但对于 shingles，还有另一个问题:它会创建不需要的组合。对于像 “洛杉矶的汉堡面包” 这样的文本，您最终会得到一长串带状疱疹:

          "angeles",
          "buns",
          "buns in",
          "buns in los",
          "buns in los angeles",
          "hamburgers",
          "hamburgers buns",
          "hamburgers buns in",
          "hamburgers buns in los",
          "hamburgers buns in los angeles",
          "in",
          "in los",
          "in los angeles",
          "los",
          "los angeles"

如果您只对那些完全含义匹配的文档感兴趣，则以上文档仅在您搜索“洛杉矶的汉堡包”时匹配(并且不匹配“任何汉堡包”之类的内容洛杉矶的包子”)那么你需要一种方法来过滤那一长串带状疱疹。我的看法是使用 word_count。

关于Elasticsearch 完全匹配分析的字段，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30517904/

29

4

0

文章推荐： ElasticSearch:我想用 group by 来计数

文章推荐： php - 防止日期和时间插入数据库

文章推荐： csv - 将 csv 导入 elasticsearch

文章推荐： mysql - 如何为不存在的值显示零行

mysql修改记录时update操作字段=字段+字符串
在有些场景下，我们需要对我们的varchar类型的字段做修改，而修改的结果为两个字段的拼接或者一个字段+字符串的拼接。如下所示，我们希望将xx_role表中的name修改为name+id。
MySQL SUM IF 字段 b = 字段 a
SELECT incMonth as Month, SUM( IF(item_type IN('typ1', 'typ2') AND incMonth = Month, 1, 0 ) )AS
java - 如果直接从内存读取 volatile 字段，那么从哪里读取非 volatile 字段？
我最近读到 volatile 字段是线程安全的，因为 When we use volatile keyword with a variable, all the threads read its va
python - 在数据库中已有数据之后添加的 UUID 字段。有没有办法为现有数据填充 UUID 字段？
我在一些模型中添加了一个 UUID 字段，然后使用 South 进行了迁移。我创建的任何新对象都正确填充了 UUID 字段。但是，我所有旧数据的 UUID 字段为空。有没有办法为现有数据填充 UUI
php - 左连接中的两个表都有 id 字段。尝试从第一个数据库中提取 id 字段，但获取第二个数据库
刚刚将我的网站从 mysql_ 更新为 mysqli，并破坏了之前正常运行的查询。我试图从旋转中提取 id，因为它每次都会增加 1，但我不断获取玩家 id，有人可以告诉我我做错了什么吗？我尝试了将
mysql - 如何使用 MySQL 将一个表中的一列(字段)复制到另一个表的空列(字段)，这两个表都是同一数据库的一部分？
我在 Mac OS X 上使用带有 Sequel Pro 的 MySQL。我想将一个表中的一个字段(即名为“GAME_DY”的列)复制到另一个名为“DAY_ID”的表的空字段中。两个表都是同一数据库的
java - 为序列化设置一个 transient 字段，但为 JPA 设置非 transient 字段
问题: 是否有可能有一个字段被 JPA 保留但被序列化跳过？可以实现相反的效果(JPA 跳过字段而序列化则不会)，如果使用此功能，那么相反的操作肯定会很有用。类似这样的事情: @Entity cl
php - 无重复(分组依据)字段 1 循环，字段 2 位于水平线
假设我有一个名为“dp”的表 Year | Month | Payment| Payer_ID | Payment_Recipient | 2008/2009 | July
c - 我在 IP header 中找不到 DSCP 字段，只有已弃用的 TOS 字段
我将尝试通过我的 Raspberry Pi 接入点保证一些 QoS。开始之前，我先动手:我阅读了有关 tcp、udp 和 ip header 的内容。在IP header description我看
dart - 什么时候应该在 dart 中使用 final 字段、工厂构造函数或带有 getter 的私有(private)字段？
如果你能弄清楚如何重命名这个问题，我愿意接受建议。在 Dart 语言中，可以编写一个带有 final 字段的类。这些是只能设置的字段构造函数前 body 跑。这可以在声明中(通常用于类中的静态常量)
javascript - jquery:使用两个带有两个字段(字段 1、字段 2 + 1 天)的日期选择器，例如 booking.com
你怎么样？我有两个带有两个字段的日期选择器我希望当用户选择 (From) 时，第二个字段 (TO) 将是 next day 。比如 booking.com 例如:当用户选择From 01-01-2
mysql - 将字段从 T1 字段 A 复制到 T2 字段 A where(if or when) T1 field B = T2 field B (mysql)
我想我已经看到了这个问题的一些答案，这些答案可能与我需要的相差不远，但我对 mysql 的了解还不够确定，所以我会根据我的具体情况提出问题。我有一个包含多个表的数据库，为此，如果“image”表上的
mySQL在单个查询中多次使用相同的表/字段
我在 mySQL 数据库中有 2 个表: customers ============ customer_id (1, 2 ) customer_name (john, mark) orders ==
数据库归档与基于时间段的表/字段
我正在开发一个员工目标 Web 应用程序。领导/经理在与团队成员讨论后为他们设定目标。这是一年/半年/季度，具体取决于组织遵循的评估周期。现在的问题是添加基于时间段的字段或存档上一季度/年度数据的
Sitecore 字段，用于从媒体库中选择多个文件并能够上传文件
我正在寻找允许内容编辑器从媒体库中选择多个文件的东西，这些文件将在渲染中列出。他们还需要能够上传文件和搜索。它必须在页面编辑器(版本 8 中称为体验编辑器)中工作。到目前为止我所考虑的: 一堆文件字
r - 创建 "other"字段
现在，我有以下由 original.df %.% group_by(Category) %.% tally() %.% arrange(desc(n)) 创建的 data.frame。 DF 5),
潘塔霍。将登录的错误消息放入字符串/字段
我想知道是否有一些步骤/解决方案可以处理错误消息并将它们放入 Pentaho 工具中的某个字符串或字段中？例如，如果连接到数据库时发生某些错误，则将该消息从登录到字符串/字段。最佳答案我们在作业的
iPhone如何制作 "To"字段，如短信应用程序
如何制作像短信应用程序一样的“收件人”字段？例如，右侧有一个“+”按钮，当添加某人时，名称将突出显示并可单击，如圆角矩形等。有没有内置的框架？最佳答案不，但请参阅 Three20 的 TTMess
delphi - 列出记录的元素\字段
是否可以获取记录的元素或字段的列表通过类型信息类似于类的已发布属性的列表吗？谢谢！最佳答案取决于您的delphi版本，如果您使用的是delphi 2010或更高版本，则可以使用“新rtti”
带有外键列表的 SQLite 字段
我正在构建一个 SQLite 数据库来保存我的房地产经纪人的列表。我已经能够使用外键来识别每个代理的列表，但我想在每个代理的记录中创建一个列表；从代理商和列表之间的一对一关系转变为一对多关系。看这里

首页

博学

6Ren·AI

商城

Elasticsearch 完全匹配分析的字段