elasticsearch - 如何考虑单词顺序但不要求所有搜索到的单词都存在于ElasticSearch match

elasticsearch - 如何考虑单词顺序但不要求所有搜索到的单词都存在于ElasticSearch match_phrase查询的文档中？

转载作者：行者123 更新时间：2023-12-03 02:20:39

25

4

假设我的索引有两个文档:

“拿钱”

“我的钱到了这里”

当我对“获取我的钱”进行常规匹配查询时，两个文档都正确匹配，但它们得到的分数相等。但是，我希望评分时的字词顺序有意义。换句话说，我希望“赚钱”获得更高的分数。

因此，我尝试将match查询放入bool查询的must子句中，并包含match_phrase(具有相同的查询字符串)。在我搜索“我如何获得我的钱”之前，这似乎可以正确打出匹配。在这种情况下，match_phrase查询似乎不匹配，并且命中再次以相等的分数返回。

如何构造索引/查询，使其考虑单词顺序但不要求所有搜索到的单词都存在于文档中？

Index mapping with test data

PUT test-index
{
  "mappings": {
      "properties" : {
        "keyword" : {
          "type" : "text",
          "similarity": "boolean"
        }
      }
    }
}

POST test-index/_doc/
{
    "keyword" : "get my money"
}
POST test-index/_doc/
{
    "keyword" : "my money get here"
}

Query "How do I get my money" - Doesn't work as needed

GET /test-index/_search
{
  "query": {
    "bool": {
      "must": [
        {
          "match": {
            "keyword": "how do i get my money"
          }
        }
      ],
      "should": [
        {
          "match_phrase": {
            "keyword": {
              "query": "how do i get my money"
            }
          }
        }
      ]
    }
  }
}

Results (Both documents scored same)

{
  "took" : 2,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 2,
      "relation" : "eq"
    },
    "max_score" : 3.0,
    "hits" : [
      {
        "_index" : "test-index",
        "_type" : "_doc",
        "_id" : "6Xy8wXIB3NtI_ttPGBoV",
        "_score" : 3.0,
        "_source" : {
          "keyword" : "get my money"
        }
      },
      {
        "_index" : "test-index",
        "_type" : "_doc",
        "_id" : "6ny8wXIB3NtI_ttPGBpV",
        "_score" : 3.0,
        "_source" : {
          "keyword" : "my money get here"
        }
      }
    ]
  }
}

编辑1

正如@gibbs建议的那样，让我们删除 "similarity": "boolean"。下面介绍了一个更简化和重点突出的问题。我们正在努力寻找答案。

Removed "similarity": "boolean"

PUT test-index
{
  "mappings": {
      "properties" : {
        "keyword" : {
          "type" : "text"
        }
      }
    }
}

POST test-index/_doc/
{
    "keyword": "get my money"
}
POST test-index/_doc/
{
    "keyword": "my money get here"
}

如何使该查询返回结果？现在没有。如果使用 match_phrase，如果文档中不存在所有搜索到的单词，是否可以返回结果？

GET /test-index/_search
{
  "query": {
    "bool": {
      "should": [
        {
          "match_phrase": {
            "keyword": {
              "query": "how do I get my money"
            }
          }
        }
      ]
    }
  }
}

编辑2

在我们的用例中，我们不能使用BM25(TF / IDF)，因为这会弄乱我们的结果。

POST test-index/_doc
{
  "keyword": "get my money, claim, distribution, getting started"
}

POST test-index/_doc 
{
  "keyword": "my money get here"
}

GET /test-index/_search 
{
  "query": {
    "bool": {
      "must": [
        {
          "match": {
            "keyword": "how do I get my money"
          }
        }
      ]
    }
  }
}

Results

{
  "took" : 16,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 2,
      "relation" : "eq"
    },
    "max_score" : 0.6156533,
    "hits" : [
      {
        "_index" : "test-index",
        "_type" : "_doc",
        "_id" : "JnxCw3IB3NtI_ttPBjQv",
        "_score" : 0.6156533,
        "_source" : {
          "keyword" : "my money get here"
        }
      },
      {
        "_index" : "test-index",
        "_type" : "_doc",
        "_id" : "x3xSw3IB3NtI_ttP1DUi",
        "_score" : 0.49206492,
        "_source" : {
          "keyword" : "get my money, claim, distribution, getting started"
        }
      }
    ]
  }
}

在这种情况下 我的钱到了这里比预期的得分高得多。因此，在分数计算将取决于匹配的文档数，字段长度等的情况下，我们无法做到这一点。

很抱歉很长的问题。因此，回到我的原始问题 ，如何构造索引/查询，使其考虑单词顺序，但不要求所有搜索到的单词都存在于文档中？

最佳答案

问题是由于您的similarity参数。

A simple boolean similarity, which is used when full-text ranking is not needed and the score should only be based on whether the query terms match or not. Boolean similarity gives terms a score equal to their query boost

Reference

您应该使用其他相似性参数( BM25)获得更好的分数。

我从映射中删除了 similarity参数，并为相同的数据建立了索引。
它使用了默认的 similarity参数。

得分如下。

{
    "took": 1069,
    "timed_out": false,
    "_shards": {
        "total": 1,
        "successful": 1,
        "skipped": 0,
        "failed": 0
    },
    "hits": {
        "total": {
            "value": 2,
            "relation": "eq"
        },
        "max_score": 0.5809142,
        "hits": [
            {
                "_index": "test-index",
                "_type": "_doc",
                "_id": "WpaHwnIBa8oXh9OgX4Hb",
                "_score": 0.5809142,
                "_source": {
                    "keyword": "get my money"
                }
            },
            {
                "_index": "test-index",
                "_type": "_doc",
                "_id": "W5aHwnIBa8oXh9OgeYG9",
                "_score": 0.5167642,
                "_source": {
                    "keyword": "my money get here"
                }
            }
        ]
    }
}

关于elasticsearch - 如何考虑单词顺序但不要求所有搜索到的单词都存在于ElasticSearch match_phrase查询的文档中？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/62427934/

25

4

0

文章推荐： audio - 使用 OpenAL 进行时间拉伸(stretch)

文章推荐： javascript - 有时JQuery ajax在重定向后没有执行

文章推荐： javascript - JavaScript 中的正则表达式用于搜索

MSBuild:为主项目生成 XML 文档，但不为依赖项目生成 XML 文档
我有一个 .sln 文件，里面有几个项目。为了简单起见，让我们称它们为... 项目A 项目B 项目C ...其中 A 是引用 B 和 C 的主要项目。我的目标是更新我的构建脚本，为 ProjectA
api - 如何生成 Magento 的 API 文档/文档？
我安装了 Magento，我想知道如何生成完整的 API 文档，例如 http://docs.magentocommerce.com/ 上的文档是使用 phpdoc 生成的。 Magento 中是否包
java - 创建自定义 jsdocs、java 文档、php 文档
我通常使用jetbrains family ide。在为函数创建文档时非常有用，只需输入 /** 如何在创建文档时创建自定义标签，例如@date标签。最佳答案 JavaScript、Java: st
java - 无法打开使用 jOpenDocument 创建的 ODS 文档 Google 文档
我正在尝试使用 jOpenDocument library创建文档。我已经执行了创建电子表格的示例 - 代码编译并运行正常，但当我尝试使用 Excel Office 2012 或 Google Doc
javascript - HTML DOM 从哪里开始？ window ？文档？文档.defaultView？
如标题。有没有介绍HTML DOM构造的图片？最佳答案 DOM(文档对象模型)从文档节点开始。它被称为“根节点”。观察下面的树(括号中对应的nodeType): [HTMLDocument]
ide - 如何更改 ColdFusion 帮助以显示 ColdFusion 8 文档，而不是 ColdFusion 9 文档？
我喜欢 ColdFusion Builder。但我不喜欢帮助只有 CF9 文档。有什么方法可以将其更改为拥有 ColdFusion 8 文档？最佳答案 http://livedocs.adobe.c
javascript - jQuery 脚本 : function(window, 文档，未定义)与 ;(函数($，窗口，文档，未定义)
这个问题在这里已经有了答案: What is the consequence of this bit of javascript? (4 个答案) 关闭 9 年前。我看到一些 jQuery 脚本嵌
c# - 使用 XML 文件中的数据生成 Word 文档 (docx)/基于模板将 XML 转换为 Word 文档
我有一个 XML 文件，其中包含需要在 Word 文档中填充的数据。我需要找到一种方法来定义一个模板，该模板可用作从 XML 文件填充数据并创建输出文档的基线。我相信有两种方法可以做到这一点。创
AVAudioEngine 文档
我正在尝试查找有关如何使用 AVAudioEngine 的详细文档。有谁知道我在哪里可以找到它？我找到了这个，但与文档丰富的 UI 内容相比，它似乎非常简陋。 https://developer.a
tensorflow 文档
我对 Tensorflow 文档越来越感到恼火和沮丧。我在谷歌上搜索了有关的文档 tf.reshape 我被定向到一个通用页面，例如 here 。我想查看 tf.reshape 的详细信息，而不是整
Clojure:文档
我正在学习本教程:http://moxleystratton.com/clojure/clojure-tutorial-for-the-non-lisp-programmer 然后遇到了这个片段: u
Swagger 文档
如何在 swagger 中为对象数组编写文档。这是我的代码，但我不知道如何访问对象数组中的数据。 { "first_name":"Sam", "last_name":"Smith",
Javascript 文档
是否有针对 Javascript 的 JavaDocs 之类的东西？当我在 netbeans IDE 中按 ctrl+space 时写javascript，指定对象的javascript文档就出来了
jquery 文档
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭 5 年前。
Javascript 文档
我需要 JavaScript 中的 heredoc 之类的东西。你对此有什么想法吗？我需要跨浏览器功能。我发现了这个: heredoc = '\ \ \ zzz\ \
03、WSDL 文档
WSDL 文档是包含一系列的，可描述某个 web service 的定义的，简单的 XML 文档 WSDL 文档结构 WSDL 文档用下表这些主要的元素来描述某个 web service 的
lua - OCRopus 文档？
是否有 ocropus 的文档？我正在寻找对以下功能的解释: make_SegmentPageByRAST(): segment() RegionExtractor(): setPageLines(
关于如何添加事件处理程序的 C# 文档
这个问题在这里已经有了答案: Understanding events and event handlers in C# (13 个回答) 4年前关闭。我正在使用 NRECO 和 ffmpeg 对视
Javascript 文档.domain
我正在尝试访问工作服务器以与名为 Spotfire 的应用程序一起使用。我的同事把这个传给我，现在已经休息了几个星期，我对他的建议有意见。实际上，当我通过 localhost 运行我的 Web 应用
Elm 文档 - "a"是什么意思？
Elm 文档没有给出示例用法，因此很难理解类型规范的含义。在几个地方，我看到“a”用作参数标识符，例如 Platform.Cmd : map : (a -> msg) -> Cmd a -> Cmd

首页

博学

6Ren·AI

商城

elasticsearch - 如何考虑单词顺序但不要求所有搜索到的单词都存在于ElasticSearch match_phrase查询的文档中？