sql - Hive Window在多个日期范围内的功能-6ren

sql - Hive Window在多个日期范围内的功能

转载作者：行者123 更新时间：2023-12-02 21:18:02

26

4

我有一张看起来像下面的表格:

TagName | DateTime          | Value

TagName1|2016-07-06 09:49:34|14
TagName1|2016-07-06 09:50:34|15
TagName1|2016-07-06 09:51:34|18
TagName2|2016-07-03 02:13:34|421
TagName2|2016-07-03 03:13:34|422
TagName3|2016-07-01 03:13:34|14

我想要做的是在此表上针对每个TagName(例如总和，加权平均，最新值，计数等)在定义的日期范围内进行多次汇总。

这是我到目前为止所拥有的:

SELECT *
FROM
(
SELECT
t1.TagName,
reflect("java.util.UUID", "randomUUID") as rv_id,
t2.item_id as rs_id,
from_unixtime(unix_timestamp()) as tstamp,
t1.datetime as last_date,
t1.value as last_value,
t1.minimum as minimum,
t1.maximum as maximum,
t1.count as count,
t1.total as total,
t1.average as average,
SUM(t1.weight_value) OVER (PARTITION BY TagName) as weighted_average,
t1.Rank as Rank
FROM
(SELECT
TagName,
value,
datetime,
MIN(value) OVER (PARTITION BY TagName) as minimum,
MAX(value) OVER (PARTITION BY TagName) as maximum,
ROW_NUMBER() OVER (PARTITION BY TagName ORDER BY datetime DESC) as Rank,
SUM(value) OVER (PARTITION BY TagName) as total,
COUNT(value) OVER (PARTITION BY TagName) as count,
AVG(value) OVER (PARTITION BY TagName) as average,
(unix_timestamp(datetime) - LAG(unix_timestamp(datetime),1) OVER (PARTITION BY TagName ORDER BY datetime))/
(SUM(unix_timestamp(datetime) - LAG(unix_timestamp(datetime),1) OVER (PARTITION BY TagName ORDER BY datetime)) OVER (PARTITION BY TagName)) * 
(LAG(value,1) OVER (PARTITION BY TagName ORDER BY datetime)) as weight_value
FROM raw.analog_history_dynamic
WHERE par_date > date_format(date_sub(to_date(current_date), 5),'yyyyMMdd')) t1
LEFT JOIN meta.item_meta t2
ON t1.TagName = t2.name) t3
WHERE t3.Rank =1;

在这种情况下，我要查看最近5天

WHERE par_date > date_format(date_sub(to_date(current_date), 5),'yyyyMMdd'))

除了5天外，我还有10个其他范围，还有一些我需要计算的范围:

-- 1min
WHERE par_date > date_format(date_sub(to_date(current_date), 1),'yyyyMMdd')
and unix_timestamp(datetime) > unix_timestamp(current_timestamp) - 60000;   

-- 5Min
WHERE par_date > date_format(date_sub(to_date(current_date), 1),'yyyyMMdd')
and unix_timestamp(datetime) > unix_timestamp(current_timestamp) - 300000;

-- 10 Min
WHERE par_date > date_format(date_sub(to_date(current_date), 1),'yyyyMMdd')
and unix_timestamp(datetime) > unix_timestamp(current_timestamp) - 600000;

-- 30 Min
WHERE par_date > date_format(date_sub(to_date(current_date), 1),'yyyyMMdd')
and unix_timestamp(datetime) > unix_timestamp(current_timestamp) - 1800000;

-- 1 Month
WHERE par_date > date_format(date_sub(to_date(current_date), 30),'yyyyMMdd');

-- 2 Month
WHERE par_date > date_format(date_sub(to_date(current_date), 60),'yyyyMMdd');

至少我想我希望将它们合并在同一分区下，以便所有<1天的聚合(按日期分区的表)

关于能够在一个查询中组合所有这些计算，而不是在不同的where条件下单独执行每个计算的任何想法或建议。

谢谢

最佳答案

In the select query statement only you could use "case when condition;s" which you have given in where clause eg - 

SELECT *
FROM
(
SELECT
t1.TagName,
reflect("java.util.UUID", "randomUUID") as rv_id,
t2.item_id as rs_id,
from_unixtime(unix_timestamp()) as tstamp,
t1.datetime as last_date,
t1.value as last_value,
t1.flag,
t1.minimum as minimum,
t1.maximum as maximum,
t1.count as count,
t1.total as total,
t1.average as average,
SUM(t1.weight_value) OVER (PARTITION BY TagName) as weighted_average,
t1.Rank as Rank
FROM
(SELECT
TagName,
value,
datetime,
case 
when par_date > date_format(date_sub(to_date(current_date), 1),'yyyyMMdd')
and unix_timestamp(datetime) > unix_timestamp(current_timestamp) - 60000 
then flag_1min
when par_date > date_format(date_sub(to_date(current_date), 1),'yyyyMMdd')
and unix_timestamp(datetime) > unix_timestamp(current_timestamp) - 300000 
then flag_5min 
when .......and so on 
end as flag,
MIN(value) OVER (PARTITION BY TagName) as minimum,
MAX(value) OVER (PARTITION BY TagName) as maximum,
ROW_NUMBER() OVER (PARTITION BY TagName ORDER BY datetime DESC) as Rank,
SUM(value) OVER (PARTITION BY TagName) as total,
COUNT(value) OVER (PARTITION BY TagName) as count,
AVG(value) OVER (PARTITION BY TagName) as average,
(unix_timestamp(datetime) - LAG(unix_timestamp(datetime),1) OVER (PARTITION BY TagName ORDER BY datetime))/
(SUM(unix_timestamp(datetime) - LAG(unix_timestamp(datetime),1) OVER (PARTITION BY TagName ORDER BY datetime)) OVER (PARTITION BY TagName)) * 
(LAG(value,1) OVER (PARTITION BY TagName ORDER BY datetime)) as weight_value
FROM raw.analog_history_dynamic
WHERE par_date > date_format(date_sub(to_date(current_date), 5),'yyyyMMdd')) t1
LEFT JOIN meta.item_meta t2
ON t1.TagName = t2.name
group by TagName,
value,
datetime,
case 
when par_date > date_format(date_sub(to_date(current_date), 1),'yyyyMMdd')
and unix_timestamp(datetime) > unix_timestamp(current_timestamp) - 60000 
then flag_1min
when par_date > date_format(date_sub(to_date(current_date), 1),'yyyyMMdd')
and unix_timestamp(datetime) > unix_timestamp(current_timestamp) - 300000 
then flag_5min 
when .......and so on 
end as flag,) t3
WHERE t3.Rank =1; 

NOTE: in the above code of yours, you have forgotten to use GROUP BY function since you had aggregate functions

关于sql - Hive Window在多个日期范围内的功能，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38226074/

26

4

0

文章推荐： php - Slim框架的路由问题

文章推荐： locust - 了解蝗虫摘要结果

文章推荐： php - PHP docker和使用MySQL PDO

hive - 无需定义 hive 表结构即可在 hive 中导入数据平面文件
我可以将 CSV 或任何其他平面文件导入到 hive 中，而无需先在 hive 中创建和定义表结构吗？假设我的 csv 文件有 200 列，需要导入到 hive 表中。所以我必须首先在 hive 中创
hive - hive 中的爆炸功能
我有以下示例数据，我试图在 hive 中爆炸它.. 我使用了 split 但我知道我错过了一些东西.. ["[[-80.742426,35.23248],[-80.740424,35.23184],[
hive - Hive 是否重复数据？
我有一个很大的日志文件，我加载到 HDFS . HDFS将根据机架感知复制到不同的节点。现在我将相同的文件加载到配置单元表中。命令如下: create table log_analysis (log
hive - Hive 中的解析异常
我正在尝试使用 UDF在 hive 中。但是当我尝试使用 userdate as 'unixtimeToDate' 创建一个临时函数时，我得到这个异常(exception) hive> create
hive - Hive 有休眠功能吗？
在Mysql中，我们可以使用DO sleep(5) ;来进行暂停。但它在 Hive 中不起作用。 Hive有 sleep 功能吗？最佳答案你可以通过反射调用Thread让hive在处理每一行后多等
hive - 将数据导入包含空格的 Hive
我正在将数据从 csv 文件导入 Hive。我的表包含字符串和整数。但是，在我的输入文件中，整数周围有空格，所以它看起来像这样: some string, 2 ,another stri
hive - Hive 中的嵌套选择
我可以嵌套吗select在 Hive 中具有不同的条件？例如如果我有以下两个 Hive 查询: select percentile(x, 0.95) from t1 where y = 1; sel
hive - Hive 安装在什么模式下？
hive 安装有什么特定的模式吗？例如，Hadoop 安装有 3 种模式:独立、伪分布式和完全分布式。同样，Hive 是否有任何特定类型的分布？ Hive 可以分布式安装吗？最佳答案 Hive
hive - Hive 中的日期比较
我正在使用 Hive，我有一个结构如下的表: CREATE TABLE t1 ( id INT, created TIMESTAMP, some_value BIGINT ); 我需要找到
hive - hive 、黑斑羚和直线之间的区别
我是 Hadoop 生态系统工具的新手。任何人都可以帮助我了解 hive 、直线和 hive 之间的区别。提前致谢! 最佳答案 Apache hive : 1] Apache Hive 是一个建立
hive - Hive 中的数组字面量
如何在 Hive 中写出数组文字？ SELECT PERCENTILE(my_column, [0.5, 0.25, 0.50, 0.75, 0.95]) AS quantiles FROM my_t
hive - Hive Alter表更改列名
我正在尝试在Hive中重命名columnName。是否可以在Hive中重命名列名称。 tableA(栏1，_c1，_c2) 至 tableA(column1，column2，column3) ?? 最
hive - HIVE 中的减号查询
减号查询似乎在 HIVE 中不起作用。尝试过: select x from abc minus select x from bcd ; 我做错了还是没有为 HIVE 定义负查询？如果是这样，还有其他
hive - 使用 Hive-JDBC 在 Hive 中批量插入
我正在尝试使用 hive-jdbc 连接将数据插入 Hive (NON-ACID) 表。如果我在“语句”中执行单个 SQL 查询，它就可以工作。如果我尝试使用“addBatch”对 SQL 进行批处理
hive - 如何获取列名并输入 hive
我知道这些，要获取表中的列名，我们可以触发: show columns in . 要获取表的描述(包括 column_name、column_type 和许多其他详细信息): describe [f
hive - Hive 表名最大字符数限制是多少？
无法找到有关 Hive 表最大字符限制的合适规范。我正在开发一个涉及 hive 表的 ETL 过程，这些表已指定格式为 _ 的命名约定，并且提供的表名称远大于 30 字节(pl/sql 的正常限制)
hive - Hive 元存储和名称节点在集群中起什么作用？
在安装了Hive的集群中，metastore和namenode有什么？我了解 Metastore 拥有所有表架构、分区详细信息和元数据。现在这个元数据是什么？那么namenode有什么呢？这个元存储在
hive - Hive 动态分区和静态分区的主要区别
Hive 中静态分区和动态分区的主要区别是什么？使用单独的插入意味着静态，而对分区表的单个插入意味着动态。还有什么优点吗？最佳答案在静态分区中，我们需要在每个 LOAD 语句中指定分区列值。假设
hive - Hive 中的数据透视表
我是 hadoop 和 hive 的新手。如果有人研究过pivot in hive的概念，请与我分享。例如:来自 teradata 或 oracle 的数据未转置，这些数据应在 hive 中转置。那
hive - hive 面试问题中的分区
1)如果分区列没有数据，那么当你查询它时，你会得到什么错误？ 2)如果某些行没有分区列，这些行将如何处理？会不会有数据丢失？ 3)为什么需要对数字列进行分桶？我们也可以使用字符串列吗？流程是什么？您将

首页

博学

6Ren·AI

商城

sql - Hive Window在多个日期范围内的功能