gpt4 book ai didi

sql - 2 小时间隔的最小值、最大值、平均值

转载 作者:行者123 更新时间:2023-11-29 12:47:18 25 4
gpt4 key购买 nike

在下面的查询中,我正在使用 PostgreSQL 计算两个小时间隔的最小值、最大值和平均值。

查询在偶数开始时间工作正常 (..04:00:00+05:30),但它给出的结果与奇数开始时间的偶数开始时间相似 (..05:00:00+05:30)。2 的倍数返回偶数小时,这就是问题所在。

SELECT tagid, CAST(sample_time_stamp as Date) AS stat_date, 
(floor(extract(hour from sample_time_stamp)/2) * 2)::int AS hrs,
min(sensor_reading) AS theMin,
max(sensor_reading) AS theMax,
avg(sensor_reading) AS theAvg
FROM sensor_readings WHERE tagid =1 AND
sample_time_stamp BETWEEN '2012-10-23 01:00:00+05:30'
AND '2012-10-23 05:59:00+05:30'
GROUP BY tagid,CAST(sample_time_stamp as Date),
floor(extract(hour from sample_time_stamp)/2) * 2
ORDER BY tagid,stat_date, hrs

奇数开始时间的输出('2012-10-23 01:00:00+05:30')

tagid    date          hrs  theMin  themax    theAvg 
1 2012-10-23 0 6 58 30.95
1 2012-10-23 2 2 59 29.6916666666667
1 2012-10-23 4 3 89 31.7666666666667

偶数开始时间的输出 ('2012-10-23 02:00:00+05:30')

tagid    date          hrs  theMin   themax    theAvg
1 2012-10-23 2 2 59 29.6916666666667
1 2012-10-23 4 3 89 31.7666666666667

最佳答案

要获得从最小时间戳开始的恒定时间范围:

WITH params AS (
SELECT '2012-10-23 01:00:00+05:30'::timestamptz AS _min -- input params
,'2012-10-23 05:59:00+05:30'::timestamptz AS _max
,'2 hours'::interval AS _interval
)
,ts AS (SELECT generate_series(_min, _max, _interval) AS t_min FROM params)
,timeframe AS (
SELECT t_min
,lead(t_min, 1, _max) OVER (ORDER BY t_min) AS t_max
FROM ts, params
)
SELECT s.tagid
,t.t_min
,t.t_max -- mildly redundant except for last row
,min(s.sensor_reading) AS the_min
,max(s.sensor_reading) AS the_max
,avg(s.sensor_reading) AS the_avg
FROM timeframe t
LEFT JOIN sensor_readings s ON s.tagid = 1
AND s.sample_time_stamp >= t.t_min
AND s.sample_time_stamp < t.t_max
GROUP BY 1,2,3
ORDER BY 1,2;

可用于任何时间范围和任何间隔长度。需要 PostgreSQL 8.4 或更高版本。

如果最大时间戳 _max 不落在 _min + n * _interval 上,最后一个时间帧将被截断。因此,最后一行可以表示比您想要的 _interval 更短的时间范围。

关键要素

  • Common Table Expressions (CTE)为了更容易处理。在顶部 CTE params 中输入参数值一次

  • generate_series()用于创建时间栅格的间隔。

  • Window function lead(...)具有 3 个参数(包括默认值)- 以涵盖最后一行的特殊情况。

  • LEFT JOIN 在栅格和实际数据之间,这样没有匹配数据的时间范围仍会显示在结果中(以 NULL 值作为数据)。这也是后来编辑的原因:WHERE 条件必须移动到 LEFT JOIN 条件,以实现这一点。

使用递归 CTE 生成替代时间框架:

WITH RECURSIVE params AS (
SELECT '2012-10-23 01:00:00+05:30'::timestamptz AS _min -- input params
,'2012-10-23 05:59:00+05:30'::timestamptz AS _max
,'2 hours'::interval AS _interval
)
, timeframe AS (
SELECT _min AS t_min, LEAST(_min + _interval, _max) AS t_max
FROM params

UNION ALL
SELECT t_max, LEAST(t_max + _interval, _max)
FROM timeframe t, params p
WHERE t_max < _max
)
SELECT ...

稍微快点……你选吧。
-> sqlfiddle显示两者。

请注意,即使声明为WITH RECURSIVE,您也可以拥有非递归 CTE(另外)。

性能指标

应该比您的原始查询更快。一半代码处理生成时间栅格,它只涉及几行并且非常很快。处理实际的表行(昂贵的部分)变得更便宜,因为我们不再从每个 sample_time_stamp 计算新值。

你绝对应该有一个 multi-column index形式:

CREATE INDEX foo_idx ON sensor_readings (tagid, sample_time_stamp DESC);

我使用 DESC 的前提是您更频繁地查询最近的条目(后来的时间戳)。如果不是这种情况,请删除修饰符。两种方式都没有太大区别。

关于sql - 2 小时间隔的最小值、最大值、平均值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13201077/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com