Elasticsearch 基于聚合结果的部分更新-6ren

Elasticsearch 基于聚合结果的部分更新

转载作者：行者123 更新时间：2023-12-04 17:35:41

24

4

我想部分更新所有基于聚合结果的对象。

这是我的对象:

{
    "name": "name",
    "identificationHash": "aslkdakldjka",
    "isDupe": false,
    ...
}

我的目标是将“identificationHash”出现超过 2 次的所有文档的 isDupe 设置为“true”。

目前我正在做的是:

我得到了所有“isDupe”= false 的文档，并在“identificationHash”上进行了 Term 聚合，min_doc_count 为 2。

{
  "query": {
    "bool": {
      "must": [
        {
          "term": {
            "isDupe": {
              "value": false,
              "boost": 1
            }
          }
        }
      ]
    }
  },
  "aggregations": {
    "identificationHashCount": {
      "terms": {
        "field": "identificationHash",
        "size": 10000,
        "min_doc_count": 2
      }
    }
  }
}

对于聚合结果，我使用一个脚本进行批量更新，其中“ctx._source.isDupe=true”用于匹配我的聚合结果的所有 identificationHash。

我重复步骤 1 和 2，直到聚合查询不再有结果。

我的问题是:是否有更好的解决方案来解决这个问题？我可以用一个脚本查询做同样的事情而不用循环处理一批 1000 个标识散列吗？

最佳答案

据我所知，没有任何解决方案可以让您在拍摄时做到这一点。但是，有一种方法可以分两步完成，而无需迭代几批哈希。

想法是首先使用称为 Transforms 的功能识别所有要更新的哈希值，这不过是一种利用聚合并根据聚合结果构建新索引的功能。

一旦您的转换创建了新索引，您就可以将其用作 terms lookup mechanism通过查询运行更新并为所有具有匹配哈希的文档更新 isDupe bool 值。

因此，首先，我们要创建一个转换，该转换将创建一个新索引，其中包含包含所有需要更新的重复哈希的文档。这是使用 scripted_metric aggregation 实现的其工作是识别所有至少出现两次且 isDupe: false 的哈希值。我们还按周汇总，因此对于每一周，都会有一个文档包含该周的所有重复哈希值。

PUT _transform/dup-transform
{
  "source": {
    "index": "test-index",
    "query": {
      "term": {
        "isDupe": "false"
      }
    }
  },
  "dest": {
    "index": "test-dups",
    "pipeline": "set-id"
  },
  "pivot": {
    "group_by": {
      "week": {
        "date_histogram": {
          "field": "lastModifiedDate",
          "calendar_interval": "week"
        }
      }
    },
    "aggregations": {
      "dups": {
        "scripted_metric": {
          "init_script": """
            state.week = -1;
            state.hashes = [:];
          """,
          "map_script": """
            // gather all hashes from each shard and count them
            def hash = doc['identificationHash.keyword'].value;

            // set week
            state.week = doc['lastModifiedDate'].value.get(IsoFields.WEEK_OF_WEEK_BASED_YEAR).toString();

            // initialize hashes
            if (!state.hashes.containsKey(hash)) {
             state.hashes[hash] = 0;
            }
            // increment hash
            state.hashes[hash] += 1;
          """,
          "combine_script": "return state",
          "reduce_script": """
            def hashes = [:];
            def week = -1;
            // group the hash counts from each shard and add them up
            for (state in states) {
              if (state == null) return null;
              week = state.week;
              for (hash in state.hashes.keySet()) {
                if (!hashes.containsKey(hash)) {
                  hashes[hash] = 0;
                }
                hashes[hash] += state.hashes[hash];
              }
            }
          
            // only return the hashes occurring at least twice
            return [
              'week': week,
              'hashes': hashes.keySet().stream().filter(hash -> hashes[hash] >= 2)
                     .collect(Collectors.toList())
            ]
          """
        }
      }
    }
  }
}

在运行转换之前，我们需要创建定义目标文档 ID 的 set-id 管道(在转换的 dest 部分引用)这将包含哈希值，以便我们可以在更新文档的 terms 查询中引用它:

PUT _ingest/pipeline/set-id
{
  "processors": [
    {
      "set": {
        "field": "_id",
        "value": "{{dups.week}}"
      }
    }
  ]
}

我们现在准备好 start the transform生成要更新的哈希列表，就像运行这个一样简单:

POST _transform/dup-transform/_start

运行后，目标索引 test-dups 将包含一个如下所示的文档:

  {
    "_index" : "test-dups",
    "_type" : "_doc",
    "_id" : "44",
    "_score" : 1.0,
    "_source" : {
      "week" : "2021-11-01T00:00:00.000Z",
      "dups" : {
        "week" : "44",
        "hashes" : [
          "12345"
        ]
      }
    }
  },

最后，我们可以按如下方式通过查询运行更新(在目标索引中添加与每周文档一样多的 terms 查询):

POST test/_update_by_query
{
  "query": {
    "bool": {
      "minimum_should_match": 1,
      "should": [
        {
          "terms": {
            "identificationHash": {
              "index": "test-dups",
              "id": "44",
              "path": "dups.hashes"
            }
          }
        },
        {
          "terms": {
            "identificationHash": {
              "index": "test-dups",
              "id": "45",
              "path": "dups.hashes"
            }
          }
        }
      ]
    }
  },
  "script": {
    "source": "ctx._source.isDupe = true;"
  }
}

只需两个简单的步骤即可!试试看，然后告诉我。

关于Elasticsearch 基于聚合结果的部分更新，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56761648/

24

4

0

文章推荐： r - 如何在 R 包/项目所在的文件夹中创建 .Rproj？

文章推荐： keras - 如何在 Keras 中实现自适应损失？

javascript - Mongoose 更新/更新？
我查看了网站上的一些问题，但还没有完全弄清楚我做错了什么。我有一些这样的代码: var mongoose = require('mongoose'), db = mongoose.connect('m
javascript - 更新、退出、更新、进入带有转换的模式
基本上，根据 this bl.ocks，我试图在开始新序列之前让所有 block 都变为 0。我认为我需要的是以下顺序: 更新为0 退出到0 更新随机数输入新号码我尝试通过添加以下代码块来遵循上述
java - 强制在线程内进行 GUI 更新 - JSlider 更新
我试图通过使用随机数在循环中设置 JSlider 位置来模拟“赛马”的投注结果。我的问题是，当然，我无法在线程执行时更新 GUI，因此我的 JSlider 似乎没有在竞赛，它们从头到尾都在运行。我尝试
php - PDO 更新帮助执行 pdo 更新
该功能非常简单: 变量:$table是正在更新的表$fields 是表中的字段，$values 从帖子生成并放入 $values 数组中而$where是表的索引字段的id值$indxfldnm 是索引
java - 数据库多线程插入(更新)和单线程顺序插入(更新)的性能比较？
让我们想象一个环境:有一个数据库客户端和一个数据库服务器。数据库客户端可以是 Java 程序或其他程序等；数据库服务器可以是mysql、oracle等。需求是在数据库服务器上的一个表中插入大量记录。
php - 更新、插入和删除时的 MySQL 更新 ID
在我当前的应用程序中，我正在制作一个菜单结构，它可以递归地创建自己的子菜单。然而，由于这个原因，我发现很难也允许某种重新排序方法。大多数应用程序可能只是通过“排序”列进行排序，但是在这种情况下，尽管这
ios - 更新/过期后供应配置文件 key 将更改 - 更新
Provisioning Profile 有 key ， key 链依赖于它。我想知道 key 什么时候会改变。 Key will change after renew Provisioning Pr
javascript - 是否应该发布 MongoDB 插入/更新/更新/删除？
截至目前，我在\server\publications.js 中有我的 MongoDB“选择”，例如: Meteor.publish("jobLocations", function () { r
ios - Swift:更新 UI - 主线程上的整个功能或只是 UI 更新？
我读到 UI 应该始终在主线程上更新。但是，当谈到实现这些更新的首选方法时，我有点困惑。我有各种函数可以执行一些条件检查，然后使用结果来确定如何更新 UI。我的问题是整个函数应该在主线程上运行吗？应
docker - yum 更新/apk 更新/apt-get 更新在代理后面不起作用
我在代理后面，我无法构建 Docker 镜像。我试过 FROM ubuntu , FROM centos和 FROM alpine ，但是 apt-get update/yum update/apk
java - 更新-更新 java truststore 中的自签名 CA 证书
我构建了一个 Java 应用程序，它向外部授权客户端公开网络服务。 Web 服务使用带有证书身份验证的 WS-security。基本上我们充当自定义证书颁发机构 - 我们在我们的服务器上维护一个 ja
asp.net - 更新 dll 时使用 app_offline.htm 使应用程序脱机更新 dll 时失败
因此，我有时会在上传新版本时使用 app_offline.htm 使应用程序离线。但是，当我上传较大的 dll 时，我收到黄色错误屏幕，指出无法加载 dll。这似乎与我对 app_offline.
visual-studio-cordova - 更新 Node 和 NPM VS Cordova 更新 5
我刚刚下载了 VS Apache Cordova Tools Update 5，但遇到了 Node 和 NPM 的问题。我使用默认的空白 cordova 项目进行测试。版本如果我在 VS 项目中对
angularjs - 避免 ng-view 在 $location.search 更新 GET 参数时获取 "wiped"(更新)
所以我有一个使用传单库实例化的 map 对象。 map 实例在单独的模板中创建并以这种方式路由:- var app = angular.module('myApp', ['ui', 'ngResour
java - Java 6 更新 19,20 中的绘图性能与 Java 6 更新 3 相比？
我使用较早的 Java 6 u 3 获得的帧速率是新版本的两倍。很奇怪。谁能解释一下？在 Core 2 Duo 1.83ghz 上，集成视频(仅使用一个内核)- 1500(较旧的 java)与 70
javascript - angular ng-click inside ng-repeat 更新 $scope 然后使用 $apply 更新 dom
我正在使用 angular 1.2 ng-repeat 创建的 div 也包含 ng-click 点击时 ng-click 更新 $scope $scope 中的变化反射(reflect)在使用 $a
android - public final void moveCamera(CameraUpdate 更新)和 public final void animateCamera(CameraUpdate 更新)之间的区别？
这些方法有什么区别 public final void moveCamera(CameraUpdate更新)和public final void animateCamera (CameraUpdate
列表树(更新)
我尝试了另一篇文章中某人评论中关于如何将树更改为列表的建议。但是，我在某处(或某物)有未声明的变量，所以我列表中的值是 [_G667, _G673, _G679]，而不是 [5, 2, 6]，这是正确
Java数据库大数据量查询/更新
实现以下场景的最佳方法是什么？我需要从java应用程序调用/查询包含数百万条记录的数据库表。然后，对于表中的每条记录，我的应用程序应该调用第三方 API 并获取状态字段作为响应。然后我的应用程序应该
Java重绘()/更新()
只是在编写一些与 java 图形相关的代码，这是我今天的讲座中的非常简单的示例。不管怎样，互联网似乎说更新不会被系统触发器调用，例如调整框架大小等。在这个例子中，更新是由这样的触发器调用的(因此当我只

首页

博学

6Ren·AI

商城

Elasticsearch 基于聚合结果的部分更新