elasticsearch - Elasticsearch中累积基数聚合的替代解决方案-6ren

elasticsearch - Elasticsearch中累积基数聚合的替代解决方案

转载作者：行者123 更新时间：2023-12-02 22:47:28

30

4

我正在运行无法访问AWS上x-packs的Elasticsearch集群，但我仍想执行 cumulative cardinality aggregation 以确定我的站点的新用户的每日计数。
是否有解决此问题的替代方法？
例如，如何转换:

GET /user_hits/_search
{
  "size": 0,
  "aggs": {
    "users_per_day": {
      "date_histogram": {
        "field": "timestamp",
        "calendar_interval": "day"
      },
      "aggs": {
        "distinct_users": {
          "cardinality": {
            "field": "user_id"
          }
        },
        "total_new_users": {
          "cumulative_cardinality": {
            "buckets_path": "distinct_users" 
          }
        }
      }
    }
  }
}

要产生没有 cumulative_cardinality的相同结果？

最佳答案

正是由于这个原因才添加了累积基数-在...之前不容易计算
但是，与ElasticSearch中的几乎所有内容一样，有一个脚本可以完成它。这是我的看法。

设置索引

PUT user_hits
{
  "mappings": {
    "properties": {
      "timestamp": {
        "type": "date",
        "format": "yyyy-MM-dd"
      },
      "user_id": {
        "type": "keyword"
      }
    }
  }
}

在一天之内增加1个新用户，在第二天又增加2个用户，其中之一并不是严格意义上的“新用户”。

POST user_hits/_doc
{"user_id":1,"timestamp":"2020-10-01"}

POST user_hits/_doc
{"user_id":1,"timestamp":"2020-10-02"}

POST user_hits/_doc
{"user_id":3,"timestamp":"2020-10-02"}

使用参数化的开始时间+天数模拟日期直方图，对用户进行分组，然后将其与

进行比较

GET /user_hits/_search
{
  "size": 0,
  "query": {
    "range": {
      "timestamp": {
        "gte": "2020-10-01"
      }
    }
  }, 
  "aggs": {
    "new_users_count_vs_prev_day": {
      "scripted_metric": {
        "init_script": """
          state.by_day_map = [:];
          state.start_millis = new SimpleDateFormat("yyyy-MM-dd").parse(params.start_date).getTime();
          state.day_millis = 24 * 60 * 60 * 1000;
          state.dt_formatter = DateTimeFormatter.ofPattern("yyyy-MM-dd").withZone(ZoneOffset.UTC);
        """,
        "map_script": """
          for (def step = 1; step < params.num_of_days + 1; step++) {
            def timestamp = doc.timestamp.value.millis;
            def user_id = doc['user_id'].value;
            def anchor = state.start_millis + (step * state.day_millis);
            // add a `n__` prefix to more easily sort the resulting map later on
            def anchor_pretty = step + '__' + state.dt_formatter.format(Instant.ofEpochMilli(anchor));
            
            if (timestamp <= anchor) {
              if (state.by_day_map.containsKey(anchor_pretty)) {
                state.by_day_map[anchor_pretty].add(user_id);
              } else {
                state.by_day_map[anchor_pretty] = [user_id];
              }
            }
        }
        """,
        "combine_script": """
            List keys=new ArrayList(state.by_day_map.keySet());
            Collections.sort(keys);
          
            def unique_sorted_map = new TreeMap();
            def unique_from_prev_day = [];
            
            for (def key : keys) { 
              def unique_users_per_day = new HashSet(state.by_day_map.get(key));
              
              unique_users_per_day.removeIf(user -> unique_from_prev_day.contains(user));
              
               // remove the `n__` prefix
               unique_sorted_map.put(key.substring(3), unique_users_per_day.size());
               unique_from_prev_day.addAll(unique_users_per_day);
            }
            return unique_sorted_map
        """,
        "reduce_script": "return states",
        "params": {
          "start_date": "2020-10-01",
          "num_of_days": 5
        }
      }
    }
  }
}

屈服

"aggregations" : {
  "new_users_count_vs_prev_day" : {
    "value" : [
      {
        "2020-10-01" : 1,    <-- 1 new unique user            
        "2020-10-02" : 1,    <-- another new unique user
        "2020-10-03" : 0,
        "2020-10-04" : 0,
        "2020-10-05" : 0
      }
    ]
  }
}

脚本一定很慢，但有一个可能非常有用的优势-您可以对其进行调整以返回新用户ID的完整列表，而不仅仅是返回从累积基数 according to its implementation's author获得的计数，只能按设计以顺序，累积的方式工作。

关于elasticsearch - Elasticsearch中累积基数聚合的替代解决方案，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/64336811/

30

4

0

文章推荐： elasticsearch - 如何通过Elasticsearch在 Algolia 实现相同的目标

文章推荐： elasticsearch - 使用Java API在Percolator中注册ElasticSearch查询

visual-studio-2010 - Visual Studio 2010 Professional 解决方案/项目是否与 Visual Studio 2010 Premium 解决方案/项目 100% 兼容？
我只是想知道要安装哪个版本的 Visual Studio 2010(专业版或高级版)提示升级项目.. 项目包括:asp.net mvc、数据库和silverlight。最佳答案通常，由不同版本的相
【解决方案】基于数据库驱动的自定义TypeHandler处理器
目录前言 1、TypeHandler 简介 1.1转换步骤 1.2转换规则 2、JSON 转换 3、枚举转换 4、文章小结
【解决方案】Java互联网项目中常见的Redis缓存应用场景
目录前言 1、常见 key-value 2、时效性强 3、计数器相关 4、高实时性 5、排行榜系列 6、文章小结前言在笔者 3 年的
【解决方案】Java互联网项目中消息通知系统的设计与实现（下）
目录前言四、技术选型五、后端接口设计 5.1业务系统接口 5.2App 端接口六、关键逻辑实现 6.1Red
【解决方案】Java互联网项目中消息通知系统的设计与实现（上）
目录前言一、需求分析 1.1发送通知 1.2撤回通知 1.3通知消息数 1.4通知消息列表二、数据模型设计
【解决方案】多租户技术架构设计入门（一）
目录前言一、多租户的概念二、隔离模式 2.1独立数据库模式 2.2共享数据库独立数据架构 2.3共享数据库共享数据架构
【解决方案】MySQL中的死锁问题还能这样解决（文末送书）
导读：虽然锁在一定程度上能够解决并发问题，但稍有不慎，就可能造成死锁。本文介绍死锁的产生及处理。死锁的产生和预防发生死锁的必要条件有4个，分别为互斥条件、不可剥夺条件、请求与保持条件和循环等待条
javascript - 获取波斯月的最后一天 + 解决方案
在浏览网页后，我找不到任何功能来执行此操作，我有可行的个人解决方案。也许它对某人有用。 **使用 Moment 插件转换日期。***moment(currentPersianDate).clone()
检测数字手写的 OCR 解决方案？
是否有一种解决方案可以很好地处理数字(1-10)手写？我试过tesseract，但我得到的只是垃圾。理想情况下是 OSS，但商业也可以。最佳答案 OpenCV 现在带有手写数字识别 OCR 示例。
multithreading - Delphi死锁解释/解决方案
在服务器应用程序上，我们有以下内容:一个称为 JobManager 的单例类。另一个类，Scheduler，不断检查是否需要向 JobManager 添加任何类型的作业。当需要这样做时，调度程序会执
javascript - 用于在应用程序中处理和捕获错误的工具/解决方案
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。想改进这个问题？将问题更新为 on-topic对于堆栈溢出。 5年前关闭。 Improve this qu
r - 解决方案。有代理时如何install_github
当您尝试从 GitHub 存储库安装某些 R 包时 install_github('rWBclimate', 'ropensci') 如果您遇到以下错误: Installing github repo
WPF 字体模糊问题-解决方案
问题在以下链接中进行了描述和演示: Paul Stovell WPF: Blurry Text Rendering www.gamedev.net forum Microsoft Connect: W
用于科学记数格式格式化的 R 解决方案
我正在寻找一种解决方案，使用标准格式 a × 10 b 在科学记数法下格式化 R 中的数字。一些同行评审的科学期刊都要求这样做，并且手动修改图表可能会变得乏味。下面是 R 标准“E 表示法”的示例，
java - 如何从另一个java应用程序内部启动资源jar - 解决方案
已编辑解决方案(如下...) 我有一个启动画面，它被打包到它自己的 jar 中。它有效。我可以通过以下方式从另一个 java 应用程序内部调用 Splash.jar: Desktop.getDesk
用于创建门户的 .NET 解决方案
什么是创建像 PageFlakes 或 iGoogle 这样的门户网站的好框架/包？？我们希望创建一个为员工提供 HR 服务的员工/HR 门户，但我们也需要一种足够灵活的产品，以便我们可以使用它来为
用于科学记数格式格式化的 R 解决方案
我正在寻找一种解决方案，使用标准格式 a × 10 b 在科学记数法下格式化 R 中的数字。一些同行评审的科学期刊都要求这样做，并且手动修改图表可能会变得乏味。下面是 R 标准“E 表示法”的示例，
search - 解决方案+遗传
如何将 solr 与 heritrix 集成？我想使用 heritrix 归档一个站点，然后使用 solr 在本地索引和搜索该文件。谢谢最佳答案使用 Solr 进行索引的问题在于它是一个纯文本
jquery - 全日历工作时间 [解决方案]
完整日历不包含工作时间功能选项(在任何一天的议程 View 中选择第一行和最后一行 - 例如公司不工作)。我做到了类似的事情: viewDisplay: function(view){
将下拉子菜单保留在屏幕内的 jQuery 解决方案
我正在使用 bootstrap 作为我的下拉菜单。但有一个问题，如果我的下拉菜单有多级子菜单，那么它会显示在屏幕上，并出现底部滚动条。如何将子菜单保留在屏幕内，我需要一个 jQuery 解决方案。

首页

博学

6Ren·AI

商城

elasticsearch - Elasticsearch中累积基数聚合的替代解决方案