druid - Druid 中是否有可能有另一个时间戳作为维度？-6ren

druid - Druid 中是否有可能有另一个时间戳作为维度？

转载作者：行者123 更新时间：2023-12-01 20:25:40

28

4

是否可以让 Druid 数据源包含 2 个(或多个)时间戳？我知道 Druid 是基于时间的数据库，我对这个概念没有问题，但我想添加另一个维度，我可以使用它来处理时间戳

例如用户保留:指标肯定是指定到某个特定日期的，但我还需要根据用户注册日期创建群组，并将这些日期汇总到一周、几个月或仅过滤到特定时间段......

如果不支持该功能，是否有任何插件？有什么肮脏的解决方案吗？

最佳答案

虽然我宁愿等待 Druid 中时间戳维度完全支持的正式实现，但我发现了我一直在寻找的“肮脏”黑客。

数据源架构

首先，我想知道每天有多少用户登录，并且能够按日期/月/年群组进行聚合

这是我使用的数据架构:

"dataSchema": {
  "dataSource": "ds1",
  "parser": {
    "parseSpec": {
      "format": "json",
      "timestampSpec": {
        "column": "timestamp",
        "format": "iso"
      },
      "dimensionsSpec": {
        "dimensions": [
            "user_id",
            "platform",
            "register_time"
        ],
        "dimensionExclusions": [],
        "spatialDimensions": []
      }
    }
  },
  "metricsSpec": [
    { "type" : "hyperUnique", "name" : "users", "fieldName" : "user_id" }
  ],
  "granularitySpec": {
    "type": "uniform",
    "segmentGranularity": "HOUR",
    "queryGranularity": "DAY",
          "intervals": ["2015-01-01/2017-01-01"]
  }
},

因此示例数据应类似于(每条记录都是登录事件):

{"user_id": 4151948, "platform": "portal", "register_time": "2016-05-29T00:45:36.000Z", "timestamp": "2016-06-29T22:18:11.000Z"}
{"user_id": 2871923, "platform": "portal", "register_time": "2014-05-24T10:28:57.000Z", "timestamp": "2016-06-29T22:18:25.000Z"}

如您所见，我计算这些指标的“主要”时间戳是 timestamp 字段，其中 register_time 只是 stringy 中的维度 - ISO 8601 UTC format .

聚合

现在，有趣的部分是:由于Time Format Extraction Function，我已经能够通过时间戳(日期)和注册时间(再次日期)进行聚合。

查询看起来像这样:

{
    "intervals": "2016-01-20/2016-07-01",
    "dimensions": [
        {
            "type": "extraction",
            "dimension": "register_time",
            "outputName": "reg_date",
            "extractionFn": {
                "type": "timeFormat",
                "format": "YYYY-MM-dd",
                "timeZone": "Europe/Bratislava" ,
                "locale": "sk-SK"
            }
        }
    ],
    "granularity": {"timeZone": "Europe/Bratislava", "period": "P1D", "type": "period"},
    "aggregations": [{"fieldName": "users", "name": "users", "type": "hyperUnique"}],
    "dataSource": "ds1",
    "queryType": "groupBy"
}

过滤

过滤的解决方案基于JavaScript Extraction Function我可以用它将日期转换为 UNIX 时间并在内部使用它(例如) bound filter :

{
    "intervals": "2016-01-20/2016-07-01",
    "dimensions": [
        "platform",
        {
            "type": "extraction",
            "dimension": "register_time",
            "outputName": "reg_date",
            "extractionFn": {
                "type": "javascript",
                "function": "function(x) {return Date.parse(x)/1000}"
            }
        }
    ],
    "granularity": {"timeZone": "Europe/Bratislava", "period": "P1D", "type": "period"},
    "aggregations": [{"fieldName": "users", "name": "users", "type": "hyperUnique"}],
    "dataSource": "ds1",
    "queryType": "groupBy"
    "filter": {
        "type": "bound",
        "dimension": "register_time",
        "outputName": "reg_date",
        "alphaNumeric": "true"
        "extractionFn": {
            "type": "javascript",
            "function": "function(x) {return Date.parse(x)/1000}"
        }
    }
}

我尝试使用 javascript 过滤器“直接”过滤它，但我无法说服 druid 返回正确的记录，尽管我已经使用各种 JavaScript REPL 仔细检查了它，但是嘿，我不是 JavaScript专家。

关于druid - Druid 中是否有可能有另一个时间戳作为维度？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38008495/

28

4

0

文章推荐： spring - Spring Data JPA 中的分页问题

文章推荐： .net - 使用 SOS.dll 进行事后 .NET 调试

python - Tensorflow ValueError : All shapes must be fully defined: [TensorShape([Dimension(None), 维度(无)，维度(3)])，TensorShape([])
我想使用批处理从文件夹中读取图像。但是解码后，当我使用tf.train.batch时可能会出现一些问题。这是代码。 def get_batch(image, label, batch_size, ca
Tensorflow unsorted_segment_sum 维度
我正在使用 tf.unsorted_segment_sum TensorFlow 的方法，当我作为数据给出的张量只有一行时，它工作正常。例如: tf.unsorted_segment_sum(tf.c
javascript 正则表达式维度
我想创建一个正则表达式来检查有效维度JavaScript 中的长度 x 宽度 x 高度。例如90.49 x 34.93 x 40.64 我打算使用的示例代码: var dimensionRegex
Android ViewPager 维度
ViewPager 是否必须是 Activity 布局中唯一存在的对象？我正在尝试实现这样的东西: 我应该在什么地方有一个大的寻呼机在顶部滚动(我有)和一个较小的画廊在它下面滚动。这只向我显示寻
database - 维度、维度属性和事实之间的区别
据我所知，(维度、维度属性和事实)差异的最佳示例如下所示: 维度 - 产品、帐户、客户维度属性 - ProductName、ProductNumber、CustomerName、CustomerNu
python - numpy 维度
我是 Numpy 的新手，正在尝试理解什么是维度的基本问题，我尝试了以下命令并试图理解为什么最后两个数组的 ndim 相同？ >>> a= array([1,2,3]) >>> a.ndim 1 >
version-control - 计算的度量/维度
我对 MDX 比较陌生，正在尝试完成我认为应该很容易的事情，但我还没有找到任何解决方案。我有一个销售立方体，其中一个衡量标准是利润，它可以是负数也可以是正数。我想得到一个有效的正利润总和的度量，即只
olap - 您将如何处理具有可变深度层次结构的 OLAP 维度？
在大多数情况下，维度内层次结构的每个级别代表不同的概念(即国家->地区->城市、年->月->日)，这很简单，可以在多维数据集中使用。我感兴趣的是可变深度层次结构，它往往由相同概念的实例组成，即计算机
java - 如何循环获取数组的 'n' 维度？
我正在尝试创建一个方法来总结潜在的项目并从数组返回该总和。以下是一些预期的示例输入: arraySum(new int[10]); // 10 arraySum(new int[2][5]); //
java - 维度 2 的自定义对象数组的初始化
我正在尝试初始化一个二维数组(我创建的类对象)，但我仍然遇到相同的运行时错误: Exception in thread "main" java.lang.NullPoointerException
c++ - 我怎样才能拥有一个以二维数组作为参数的函数，而该数组有一个我想更改的参数/维度？
(我是一名学生，这是我第一次发帖，所以请放轻松。)我想创建一个将二维数组作为参数的函数，并且在该数组中，我想要一个变量，稍后我想在代码中对其进行修改。这是最接近我想要的例子的东西: int size;
android - 获取 SurfaceView 维度
我想我可能会问一个虚拟问题，但我对 Android 编程还是个新手，而且我无法(尽管我付出了所有努力)在 Google 上找到我的答案。问题是，我正在尝试使用 2D 图形开发一个小游戏。我希望我的“
javascript - 按日期过滤 Crossfilter 维度
如何使用 Crossfilter 过滤一系列日期？当我知道该时间段之间存在事实记录时，以下内容不起作用。 Var myDimension = CrossFilterObj.dimension(func
c - 启动流程并始终设置流程 HWND 维度
我正在启动另一个应用程序并设置其主要 HWND 位置和大小。我正在使用 STARTUPINFO指定窗口尺寸的标志，但看起来只有在新进程使用 CW_USEDEFAULT 时才会遵循这些尺寸在其 Crea
python - 卷积层不匹配中的 Keras 维度
我正在尝试使用 Keras 构建我的第一个神经网络。我的经验为零，我似乎无法弄清楚为什么我的维度不对。我无法从他们的文档中弄清楚这个错误在提示什么，甚至是什么层导致了它。我的模型接受一个 32 字节
HTML a 元素不会扩展到父 li 维度
我有一个水平导航栏，我的 a 元素没有扩展到父 li 元素的宽度和高度。如何修改我的 CSS，使 a 元素与外部/父级 li 元素一样宽和高？
java - 维度，只改变宽度/高度
如何只更改需要 Dimension 对象的组件的宽度或高度？目前我是这样做的: jbutton.setPreferredSize(new Dimension(button.getPreferredSi
mdx - 动态、动态、OLAP 维度
哪些 OLAP 工具支持动态、动态地创建维度或层次结构？例如，层次结构将成员定义为:“前 5 名”、“前 6-10 名”、“其他”... 计算成员是通常的答案，我正在寻找不同的东西。计算器的问题。成
javascript - jQuery:动态 HTML 维度
我使用 1 个 div 元素为我的网站制作 .background 。它的高度将是 100%。为了实现这一点，我使用 jQuery 尺寸实用程序。用这个脚本来获取高度 $('.background
c++ - 有没有简单的方法来动态增加 boost::multi_array 维度？
MultiArray与使用 std::vector 创建多数组相比，在 boost 中有很多优势。但是，我对 BOOST 中的 MultiArray 感到不舒服的一件事是创建一个可以轻松更改其大小的多

首页

博学

6Ren·AI

商城

druid - Druid 中是否有可能有另一个时间戳作为维度？