elasticsearch - 在 Elasticsearch 查询中检索匹配的数组元素-6ren

elasticsearch - 在 Elasticsearch 查询中检索匹配的数组元素

转载作者：行者123 更新时间：2023-11-29 02:49:48

24

4

在电影数据库中，我存储了用户对每部电影的评分(0 到 5 星)。我在 Elastic Search(版本 1.2.2)中索引了以下文档结构

"_index": "my_index"
"_type": "film",
"_id": "6629",
"_source": {
  "id": "6629",
  "title": "Fight Club",
  "ratings" : [
    { "user_id" : 1234, "rating_value" : 3 },
    { "user_id" : 4567, "rating_value" : 2 },
    { "user_id" : 7890, "rating_value" : 1 }
    .....
  ]
}

"_index": "my_index"
"_type": "film",
"_id": "6630",
"_source": {
  "id": "6630",
  "title": "Pulp Fiction",
  "ratings" : [
    { "user_id" : 1234, "rating_value" : 1 },
    { "user_id" : 7654, "rating_value" : 2 },
    { "user_id" : 4321, "rating_value" : 5 }
    .....
  ]
}

等...

我的目标是在一次搜索中获得用户(假设用户 1234)评分的所有电影，以及 rating_value

如果我进行以下搜索

GET my_index/film/_search
{
  "query": {
    "match": {
      "ratings.user_id": "1234"
    }
  }
}

对于所有匹配的电影，我得到了整个文档，然后，我必须解析整个评级数组以找出数组中的哪个元素与我的查询匹配，以及与 user_id 1234 关联的 rating_value 是多少。

理想情况下，我希望这个查询的结果是

"hits": [ {
  "_index": "my_index"
  "_type": "film",
  "_id": "6629",
  "_source": {
    "id": "6629",
    "title": "Fight Club",
    "ratings" : [
      { "user_id" : 1234, "rating_value" : 3 }, // <= only the row that matches the query
    ]
  },
  "_index": "my_index"
  "_type": "film",
  "_id": "6630",
  "_source": {
    "id": "6630",
    "title": "Pulp Fiction",
    "ratings" : [
      { "user_id" : 1234, "rating_value" : 1 },  // <= only the row that matches the query
    ]
  }
} ]

提前致谢

最佳答案

如我之前的评论所述，我设法使用聚合检索值。

下面是我是如何做到的。

首先，我使用的映射:

PUT test/movie/_mapping
{
  "properties": {
    "title":{
      "type": "string",
      "index": "not_analyzed"
    },
    "ratings": {
      "type": "nested"
    }
  }
}

我选择不为标题编制索引，但您可以使用 fields 属性并将其保留为“原始”字段。

然后，电影索引:

PUT test/movie/6629
{
  "title": "Fight Club",
  "ratings" : [
    { "user_id" : 1234, "rating_value" : 3 },
    { "user_id" : 4567, "rating_value" : 2 },
    { "user_id" : 7890, "rating_value" : 1 }
  ]
}


PUT test/movie/4456
{
  "title": "Jumanji",
  "ratings" : [
    { "user_id" : 1234, "rating_value" : 4 },
    { "user_id" : 4567, "rating_value" : 3 },
    { "user_id" : 4630, "rating_value" : 5 }
  ]
}

PUT test/movie/6547
{
  "title": "Hook",
  "ratings" : [
    { "user_id" : 1234, "rating_value" : 4 },
    { "user_id" : 7890, "rating_value" : 1 }
  ]
}

聚合查询是:

GET test/movie/_search
{
  "aggs": {
    "by_movie": {
      "terms": {
        "field": "title"
      },
      "aggs": {
        "ratings_by_user": {
          "nested": {
            "path": "ratings"
          },"aggs": {
            "for_user_1234": {
              "filter": {
                "term": {
                  "ratings.user_id": "1234"
                }
              },
              "aggs": {
                "rating_value": {
                  "terms": {
                    "field": "ratings.rating_value"
                  }
                }
              }
            }
          }
        }
      }
    }
  }
}

最后，这是对以前的文档执行此查询时产生的输出:

"aggregations": {
  "by_movie": {
     "buckets": [
        {
           "key": "Fight Club",
           "doc_count": 1,
           "ratings_by_user": {
              "doc_count": 3,
              "for_user_1234": {
                 "doc_count": 1,
                 "rating_value": {
                    "buckets": [
                       {
                          "key": 3,
                          "key_as_string": "3",
                          "doc_count": 1
                       }
                    ]
                 }
              }
           }
        },
        {
           "key": "Hook",
           "doc_count": 1,
           "ratings_by_user": {
              "doc_count": 2,
              "for_user_1234": {
                 "doc_count": 1,
                 "rating_value": {
                    "buckets": [
                       {
                          "key": 4,
                          "key_as_string": "4",
                          "doc_count": 1
                       }
                    ]
                 }
              }
           }
        },
        {
           "key": "Jumanji",
           "doc_count": 1,
           "ratings_by_user": {
              "doc_count": 3,
              "for_user_1234": {
                 "doc_count": 1,
                 "rating_value": {
                    "buckets": [
                       {
                          "key": 4,
                          "key_as_string": "4",
                          "doc_count": 1
                       }
                    ]
                 }
              }
           }
        }
     ]
  }

由于嵌套语法，这有点乏味，但您将能够为每部电影检索提供的用户(此处为 1234)的评分。

希望这对您有所帮助!

关于elasticsearch - 在 Elasticsearch 查询中检索匹配的数组元素，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/25284609/

24

4

0

文章推荐： mysql - 使用给定月份的 postgres 请求 sql

文章推荐： php - 在 fpdf 中将
替换为 "\n"

ios - 从 url 检索 jpg 图像返回 nil。但是，从 url 检索 png 图像工作正常
如果我使用下面的代码，数据将为零 dispatch_async(dispatch_get_global_queue(0,0), ^{ UIImage *img = [[UIImage allo
检索 fread 使用的列分隔符
fread来自 data.table包一般可以在读取文件时自动确定列分隔符( sep )。例如，这里fread自动检测 |作为列分隔符: library(data.table) fread(past
检索 R 中特定单元格的行名和列名
因此，如果我有一个如下所示的数据框: A B C rowname1 4.5 4 3.2 rowname2 3 23
elasticsearch - 使用Solr或Elasticsearch通过大型OR查询子句进行搜索/检索
我有一个汽车模型的搜索数据库:“日产Gtr”，“Huynday Elantra”，“Honda Accord”等。现在我还有一个用户列表和他们喜欢的汽车类型 user1喜欢:carId:1234，c
java - 检索 "To"中的邮件ID并与javamail中的用户输入进行比较
我正在使用 Javamail 来获取一些电子邮件数据。我将用户输入作为电子邮件 ID、imap 地址和密码并连接到 imap。然后我监视收件箱的电子邮件并查明此人是否在“收件人”或“抄送”中。 Ema
检索 R 中的最佳簇数
我有一些数据，我想根据差距统计来评估最佳簇数。我阅读了 gap statistic 上的页面在 r 中给出了以下示例: gs.pam.RU Number of clusters (method '
JAVA - 检索/存储用户名和密码到服务器的安全方法？
我有一个用户名和密码组合，我将使用它通过 java 代码访问安全服务器。我的想法是: 在外部存储加密凭据执行时提示用户输入解密密码在使用前将解密的凭据直接存储在字符数组中使用凭据连接到数据库
java - Firebase 检索
这是 Firebase 数据:[Firebase 数据][1] 我必须从员工那里检索所有字段并将其存储在一个数组中。现在数据更改 toast 消息即将到来，但已经很晚了。 Firebase.setA
iOS 检索 valueForKey？
我是 iOS 的新手，正在开发一个基本的应用程序，它目前正在使用 SSKeychain 和 AFNetworking 与 API 进行交互。当您使用我检索的应用程序登录并在我的 CredentialS
python - 检索/打印执行上下文
编辑:这个问题已经在 apphacker 和 ConcernedOfTunbridgeWells 的帮助下得到解决。我已更新代码以反射(reflect)我将使用的解决方案。我目前正在编写一个群体智能
c - 检索/比较文件中的字符串与用户文本
我是 C 的新手，我想编写一个程序来检查用户输入的单词是否合法。我已经在 stackoverflow 上搜索了建议，但很多都是针对特定情况的。请在我被激怒之前，我知道这个语法不正确，但正在寻找一些关于
c# - 检索/设置密码和其他敏感数据的安全程序
我相信你们中的一些人编写过 C# 类，这些类必须从数据库设置密码/从数据库获取密码。我假设敏感细节不会以明文形式显示。处理此类数据的推荐程序是什么？检索到的文本是否加密？您是否将 pws 存储在加密
Python 检索 RUID？
我在 linux 上使用 2.7 之前的 python 版本，想知道如何检索 RUID？ 2.7 及更高版本从 os 包中获得了 getresuid，但我似乎找不到 2.6 的等效项最佳答案您可以
Android LRUCache 检索
我已经在 Android 中实现了一个存储对象的标准 LRUCache。每个键都是与存储的对象关联的唯一 ObjectId。我的问题是从缓存中检索对象的唯一方法是通过 ObjectId(无迭代器)。实
c# - 检索 *** 的包元数据时出错
这已经被问过很多次了。解决方案(对我有用)是从 packages.config 文件(这就足够了)和 packages 文件夹中删除 *** 包。这对我来说是一个糟糕的解决方案，因为每次我想安装一些
python - 检索 #{ } 中的文本
我有以下文字: #{king} for a ##{day}, ##{fool} for a #{lifetime} 以及以下(损坏的)正则表达式: [^#]#{[a-z]+} 我想匹配所有#{word
.net - 检索/存储数百万个小型二进制对象的最快方法
我正在寻找一种快速(如高性能，而不是快速修复)解决方案来持久化和检索数千万个小型(大约 1k)二进制对象。每个对象都应该有一个用于检索的唯一 ID(最好是 GUID 或 SHA)。额外的要求是它应该可
chisel - 检索 RegInit 的重置值
有没有办法获取 RegInit 的重置值？通过探测产生的类型的成员？我可以看到 RegInit 将返回类型(例如 UInt )。例如，我将有一个寄存器，我想通过 regmap 对其进行控制。 val
Laravel:检索 JSON 数组中的值计数
Iv 目前接手了一个项目，其中开发人员在某些表的 json 数组列中存储了 has many 关系。产品表 ---------------------------- id | product | c
git - 检索 Git 推送历史？
Git 会在任何地方记录推送到远程的历史吗？我注意到我们能够在 Microsoft VSTS 中查看 Git 存储库的推送历史记录以及每次推送的相关提交。它甚至显示旧的、过时的提交，由于后来的强制推

首页

博学

6Ren·AI

商城

elasticsearch - 在 Elasticsearch 查询中检索匹配的数组元素