sql - Redshift GROUP BY 时间间隔-6ren

sql - Redshift GROUP BY 时间间隔

转载作者：行者123 更新时间：2023-12-02 00:48:21

目前，我在 redshift 中有以下原始数据。

timestamp                   ,lead
==================================
"2008-04-09 10:02:01.000000",true
"2008-04-09 10:03:05.000000",true
"2008-04-09 10:31:07.000000",true
"2008-04-09 11:00:05.000000",false
...

所以，我想生成一个聚合数据，间隔为 30 分钟。我希望的结果是

timestamp                   ,count
==================================
"2008-04-09 10:00:00.000000",2
"2008-04-09 10:30:00.000000",1
"2008-04-09 11:00:00.000000",0
...

我提到了 https://stackoverflow.com/a/12046382/3238864 , 这对 PostgreSQL 有效。

我尝试通过使用来模仿发布的代码

with thirty_min_intervals as (
    select
      (select min(timestamp)::date from events) + ( n    || ' minutes')::interval start_time,
      (select min(timestamp)::date from events) + ((n+30) || ' minutes')::interval end_time
    from generate_series(0, (24*60), 30) n
)
select count(CASE WHEN lead THEN 1 END) from events e
right join thirty_min_intervals f
on e.timestamp >= f.start_time and e.timestamp < f.end_time
group by f.start_time, f.end_time
order by f.start_time;

但是，我遇到了错误

[0A000] ERROR: Specified types or functions (one per INFO message) not supported on Redshift tables.

请问，redshift 中 N 区间聚合数据计算的好方法是什么。

最佳答案

Joe 的回答是一个非常巧妙的解决方案。我觉得当你在 Redshift 工作时，应该始终考虑数据是如何分布和排序的。它会对性能产生巨大影响。

基于 Joe 的出色回答:我将具体化示例事件。实际上，事件将在表格中。

drop table if exists public.temporary_events;
create table public.temporary_events AS 
select ts::timestamp as ts 
    ,lead 
from 
(   SELECT '2017-02-16 10:02:01'::timestamp as ts, true::boolean  as lead
    UNION ALL SELECT '2017-02-16 10:03:05'::timestamp as ts, true::boolean  as lead
    UNION ALL SELECT '2017-02-16 10:31:07'::timestamp as ts, true::boolean  as lead
    UNION ALL SELECT '2017-02-16 11:00:05'::timestamp as ts, false::boolean as lead)
;

现在运行解释:

explain 
WITH time_dimension
AS (SELECT  dtm
           ,dtm - ((DATEPART(SECONDS,dtm) + (DATEPART(MINUTES,dtm)*60) % 1800) * INTERVAL '1 second') AS dtm_half_hour
    FROM /* Create a series of timestamp. 1 per second working backwards from NOW(). */
         /*  NB: `sysdate` could be substituted for an arbitrary ending timestamp */
         (SELECT DATE_TRUNC('SECONDS',sysdate) - (n * INTERVAL '1 second') AS dtm
          FROM /* Generate a number sequence of 100,000 values from a large internal table */
               (SELECT  ROW_NUMBER() OVER () AS n FROM stl_scan LIMIT 100000) rn) rn)

SELECT dtm_half_hour
      ,COUNT(CASE WHEN lead THEN 1 END)
FROM      time_dimension td
LEFT JOIN public.temporary_events e
       ON td.dtm = e.ts
WHERE td.dtm_half_hour BETWEEN '2017-02-16 09:30:00' AND '2017-02-16 11:00:00'
GROUP BY 1
-- ORDER BY 1 Just to simply the job a little

输出是:

XN HashAggregate  (cost=999999999999999967336168804116691273849533185806555472917961779471295845921727862608739868455469056.00..999999999999999967336168804116691273849533185806555472917961779471295845921727862608739868455469056.00 rows=1 width=9)
  ->  XN Hash Left Join DS_DIST_BOTH  (cost=0.05..999999999999999967336168804116691273849533185806555472917961779471295845921727862608739868455469056.00 rows=1 width=9)
        Outer Dist Key: ('2018-11-27 17:00:35'::timestamp without time zone - ((rn.n)::double precision * '00:00:01'::interval))
        Inner Dist Key: e."ts"
        Hash Cond: ("outer"."?column2?" = "inner"."ts")
        ->  XN Subquery Scan rn  (cost=0.00..14.95 rows=1 width=8)
              Filter: (((('2018-11-27 17:00:35'::timestamp without time zone - ((n)::double precision * '00:00:01'::interval)) - ((((("date_part"('minutes'::text, ('2018-11-27 17:00:35'::timestamp without time zone - ((n)::double precision * '00:00:01'::interval))) * 60) % 1800) + "date_part"('seconds'::text, ('2018-11-27 17:00:35'::timestamp without time zone - ((n)::double precision * '00:00:01'::interval)))))::double precision * '00:00:01'::interval)) <= '2017-02-16 11:00:00'::timestamp without time zone) AND ((('2018-11-27 17:00:35'::timestamp without time zone - ((n)::double precision * '00:00:01'::interval)) - ((((("date_part"('minutes'::text, ('2018-11-27 17:00:35'::timestamp without time zone - ((n)::double precision * '00:00:01'::interval))) * 60) % 1800) + "date_part"('seconds'::text, ('2018-11-27 17:00:35'::timestamp without time zone - ((n)::double precision * '00:00:01'::interval)))))::double precision * '00:00:01'::interval)) >= '2017-02-16 09:30:00'::timestamp without time zone))
              ->  XN Limit  (cost=0.00..1.95 rows=130 width=0)
                    ->  XN Window  (cost=0.00..1.95 rows=130 width=0)
                          ->  XN Network  (cost=0.00..1.30 rows=130 width=0)
                                Send to slice 0
                                ->  XN Seq Scan on stl_scan  (cost=0.00..1.30 rows=130 width=0)
        ->  XN Hash  (cost=0.04..0.04 rows=4 width=9)
              ->  XN Seq Scan on temporary_events e  (cost=0.00..0.04 rows=4 width=9)

卡布拉莫!

正如 Joe 所说，您可以毫无问题地愉快地使用此模式。然而，一旦您的数据变得足够大或您的 SQL 逻辑变得复杂，您可能需要优化。如果没有其他原因，您可能希望在代码中添加更多 sql 逻辑时了解解释计划。

我们可以关注三个方面:

加入。使两组数据之间的连接在相同的数据类型上工作。在这里，我们将时间戳连接到一个时间间隔。
数据分发。按时间戳具体化和分发这两个表。
数据排序。如果事件按此时间戳排序并且时间维度按两个时间戳排序，那么您可以使用合并连接完成整个查询，而无需移动任何数据，也无需将数据发送到领导节点进行聚合。

观察:

drop table if exists public.temporary_time_dimension;
create table public.temporary_time_dimension
distkey(dtm) sortkey(dtm, dtm_half_hour)
AS (SELECT  dtm::timestamp as dtm
           ,dtm - ((DATEPART(SECONDS,dtm) + (DATEPART(MINUTES,dtm)*60) % 1800) * INTERVAL '1 second') AS dtm_half_hour
    FROM /* Create a series of timestamp. 1 per second working backwards from NOW(). */
         /*  NB: `sysdate` could be substituted for an arbitrary ending timestamp */
         (SELECT DATE_TRUNC('SECONDS',sysdate) - (n * INTERVAL '1 second') AS dtm         
          FROM /* Generate a number sequence of 100,000 values from a large internal table */
               (SELECT  ROW_NUMBER() OVER () AS n FROM stl_scan LIMIT 100000) rn) rn)
;               

drop table if exists public.temporary_events;
create table public.temporary_events 
distkey(ts) sortkey(ts)
AS 
select ts::timestamp as ts 
    ,lead 
from 
(   SELECT '2017-02-16 10:02:01'::timestamp as ts, true::boolean  as lead
    UNION ALL SELECT '2017-02-16 10:03:05'::timestamp as ts, true::boolean  as lead
    UNION ALL SELECT '2017-02-16 10:31:07'::timestamp as ts, true::boolean  as lead
    UNION ALL SELECT '2017-02-16 11:00:05'::timestamp as ts, false::boolean as lead)
;

explain 
SELECT 
     dtm_half_hour
    ,COUNT(CASE WHEN lead THEN 1 END)
FROM public.temporary_time_dimension td
LEFT JOIN public.temporary_events e
       ON td.dtm = e.ts
WHERE td.dtm_half_hour BETWEEN '2017-02-16 09:30:00' AND '2017-02-16 11:00:00'
GROUP BY 1
--order by dtm_half_hour

然后给出:

XN HashAggregate  (cost=1512.67..1512.68 rows=1 width=9)
  ->  XN Merge Left Join DS_DIST_NONE  (cost=0.00..1504.26 rows=1682 width=9)
        Merge Cond: ("outer".dtm = "inner"."ts")
        ->  XN Seq Scan on temporary_time_dimension td  (cost=0.00..1500.00 rows=1682 width=16)
              Filter: ((dtm_half_hour <= '2017-02-16 11:00:00'::timestamp without time zone) AND (dtm_half_hour >= '2017-02-16 09:30:00'::timestamp without time zone))
        ->  XN Seq Scan on temporary_events e  (cost=0.00..0.04 rows=4 width=9)

重要注意事项:

我已经下单了。将其放回将导致数据被发送到领导节点进行排序。如果你能取消排序，那就取消排序!
我敢肯定，在许多情况下，选择时间戳作为事件表排序键并不理想。我只是想展示什么是可能的。
我认为您可能希望使用 diststyle all 创建并排序的时间维度。这将确保您的加入不会产生网络流量。

关于sql - Redshift GROUP BY 时间间隔，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42063003/

文章推荐： xampp - 找不到对象 - XAMPP

文章推荐： html - 如何阻止内联 block 占用比子元素更多的宽度

文章推荐： php - 设置 Cookie 时禁用 WP Super Cache

mysql - 如何获取每个日期的最小(时间)和最大(时间)
您好，我是使用 xampp 的 PHPmyadmin 新手，没有 MYSQL 背景。当我喜欢研究它是如何工作的时，我的脑海中浮现出一个想法，它让我一周都无法休眠，因为我似乎无法弄清楚如何使用 MIN(
pointers - 时间.时间 : pointer or value
Go docs say (强调): Programs using times should typically store and pass them as values, not pointers.
MySQL:查找在一个日期(时间)有条目但在另一个日期(时间)没有条目的用户行
我有一组用户在 8 月 1 日有一个条目。我想找到在 8 月 1 日有条目但在 8 月 2 日没有做任何事情的用户。现在是 10 月，所以事件已经过去很久了。我有限的知识说: SELECT * F
json - 时间 JSON 编码为 0 时间
我有以下代码，主要编码和取消编码时间结构。这是代码 package main import ( "fmt" "time" "encoding/json" ) type chec
cpu - 用户 CPU 时间 vs 系统 CPU 时间？
您能详细解释一下“用户 CPU 时间”和“系统 CPU 时间”吗？我读了很多，但我不太理解。最佳答案区别在于时间花在用户空间还是内核空间。用户 CPU 时间是处理器运行程序代码(或库中的代码)所花
profiling - 我应该使用什么分析器来测量_real_ 时间(包括等待系统调用)在此函数中花费，而不是 _CPU_ 时间
应用程序不计算东西，但做输入/输出、读取文件、使用网络。我希望探查器显示它。我希望像 callgrind 中的东西一样，在每个问题中调用 clock_gettime。或者像 oprofile 那样
jQuery 计时器可以在时间 x、时间 y、时间 z 上触发事件吗？
目前我的 web 应用程序接收 websocket 数据来触发操作。这会在页面重新加载时中断，因此我需要一个能够触发特定事件的客户端解决方案。这个想法可行吗？假设你有 TimeX = curre
linux - 找出 JBoss 消耗了多少 cpu 时间、内存和 I/O 时间？
很难说出这里问的是什么。这个问题是含糊的、模糊的、不完整的、过于宽泛的或修辞性的，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开它，visit the help center 。已关
java - 将 Joda 时间 Instant 转换为 Java 时间 Instant
我有一个 Instant (org.joda.time.Instant) 的实例，我在一些 api 响应中得到它。我有另一个来自 (java.time.Instant) 的实例，这是我从其他调用中获得
python - 如何集成一个函数 w.r.t 时间；即 'y' 是一个数组，时间(t)的值从 1 到 3000 不等
如何集成功能 f(y) w.r.t 时间;即 'y'是一个包含 3000 个值和值 time(t) 的数组从 1 到 3000 不等。所以，在整合 f(y) 后我需要 3000 个值. 积分将是不确定
时间:如何以编程方式创建命名空间？
可以通过 CLI 创建命名空间，但是如何使用 Java SDK 来创建命名空间？最佳答案它以编程方式通过 gRPC API 完成由服务公开。在 Java 中，生成的 gRPC 客户端可以通过 W
Java日期DST调整我的日期/时间
我有一个函数，它接受 2 组日期(开始日期和结束日期)，这些日期将用于我的匹配引擎我必须知道start_date1和end_date1是否在start_date2和end_date2内快进:当我在
Python运行命令行(时间)
我想从 Python 脚本运行“time”unix 命令，以计算非 Python 应用程序的执行时间。我会使用 os.system 方法。有什么方法可以在Python中保存这个输出吗？我的目标是多次运
时间/日期轴的漂亮图形标签的算法？
我正在寻找一种“漂亮的数字”算法来确定日期/时间值轴上的标签。我熟悉 Paul Heckbert's Nice Numbers algorithm . 我有一个在 X 轴上显示时间/日期的图，用户可以
powershell - 获取格式化的通用日期/时间
在 PowerShell 中，您可以格式化日期以返回当前小时，如下所示: Get-Date -UFormat %H 您可以像这样在 UTC 中获取日期字符串: $dateNow = Get-Date
javascript - 检测子窗口何时加载 "each"时间
我正在尝试使用 Javascript 向父子窗口添加一些页面加载检查功能。我的目标是“从父窗口”检测，每次子窗口完全加载然后执行一些代码。我在父窗口中使用以下代码示例: childPage=wi
FFMPEG Drawtext 时间
我正在尝试设置此 FFmpeg 命令的 drawtext 何时开始，我尝试使用 start_number 但看起来它不会成功。 ffmpeg -i 1.mp4 -acodec aac -keyint_
excel - 将长日期文本转换为日期/时间
我收到了一个 Excel (2010) 电子表格，它基本上是一个文本转储。单元格 - J8 具有以下信息 2014 年 2 月 4 日星期二 00:08:06 EST 单元格 - L8 具有以下信息
excel - 时间/日期未转换
我收到的原始数据包含一列具有以下日期和时间戳格式的数据: 2014 年 3 月 31 日凌晨 3:38 单元格的格式并不一致，因为有些单元格有单个空格，而另一些单元格中有两个或三个字符之间的空格。所以
Grails - 如何在我的应用程序中显示版本和构建日期/时间
我想知道是否有办法在我的 Grails 应用程序顶部显示版本和构建日期。编辑:我应该说我正在寻找构建应用程序的日期/时间。最佳答案在您的主模板中，或任何地方。 Server version:

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

sql - Redshift GROUP BY 时间间隔