hadoop - 在 hiveql 中，如果某些数据隐式不存在，计算平均值的最优雅/最有效的方法是什么？-6ren

hadoop - 在 hiveql 中，如果某些数据隐式不存在，计算平均值的最优雅/最有效的方法是什么？

转载作者：可可西里更新时间：2023-11-01 14:50:57

在 Hiveql 中，当数据中存在“差距”并且它们之间存在隐式重复值时，计算平均值的最优雅和最高效的方法是什么？即考虑具有以下数据的表格:

+----------+----------+----------+
| Employee |   Date   |  Balance |
+----------+----------+----------+
| John     | 20181029 |   1800.2 |
| John     | 20181105 |  2937.74 |
| John     | 20181106 |     3000 |
| John     | 20181110 |     1500 |
| John     | 20181119 |   -755.5 |
| John     | 20181120 |     -800 |
| John     | 20181121 |     1200 |
| John     | 20181122 |     -400 |
| John     | 20181123 |     -900 |
| John     | 20181202 |    -1300 |
+----------+----------+----------+

如果我尝试计算 11 月行的简单平均值，它将返回 ~722.78，但平均值应考虑未显示的天数与前一个寄存器的余额相同。例如，在上述数据中，John 在 20181101 和 20181104 之间有 1800.2。

假设表中的每个日期/余额总是只有一行，并且假设我无法更改此数据的存储方式(并且可能不应该因为在余额不变的情况下为数天写入行会浪费存储空间)，我一直在尝试从查询月中所有天数的子查询中获取平均值，为缺席天数返回 NULL，然后使用 case 以相反的顺序从上一个可用日期获取余额。所有这一切只是为了避免写入临时表。

最佳答案

第一步:原始数据

第一步是用原始数据重新创建一个表。假设原始表名为 daily_employee_balance。

daily_employee_balance

use default;
drop table if exists daily_employee_balance;
create table if not exists daily_employee_balance (
    employee_id string,
    employee string,
    iso_date date,
    balance double
);

在原始表 daily_employee_balance 中插入示例数据

insert into table daily_employee_balance values 
('103','John','2018-10-25',1800.2),
('103','John','2018-10-29',1125.7),
('103','John','2018-11-05',2937.74),
('103','John','2018-11-06',3000),
('103','John','2018-11-10',1500),
('103','John','2018-11-19',-755.5),
('103','John','2018-11-20',-800),
('103','John','2018-11-21',1200),
('103','John','2018-11-22',-400),
('103','John','2018-11-23',-900),
('103','John','2018-12-02',-1300);

第 2 步:维度表

您将需要一个维度表，其中有一个日历(包含所有可能日期的表)，将其命名为 dimension_date。这是具有日历表的正常行业标准，您可能可以通过 Internet 下载此示例数据。

use default;
drop table if exists dimension_date;
create external table dimension_date(
    date_id                 int,
    iso_date                string,
    year                    string,
    month                   string,
    month_desc              string,
    end_of_month_flg        string
);

插入 2018 年 11 月整月的一些示例数据:

insert into table dimension_date values
(6880,'2018-11-01','2018','2018-11','November','N'),
(6881,'2018-11-02','2018','2018-11','November','N'),
(6882,'2018-11-03','2018','2018-11','November','N'),
(6883,'2018-11-04','2018','2018-11','November','N'),
(6884,'2018-11-05','2018','2018-11','November','N'),
(6885,'2018-11-06','2018','2018-11','November','N'),
(6886,'2018-11-07','2018','2018-11','November','N'),
(6887,'2018-11-08','2018','2018-11','November','N'),
(6888,'2018-11-09','2018','2018-11','November','N'),
(6889,'2018-11-10','2018','2018-11','November','N'),
(6890,'2018-11-11','2018','2018-11','November','N'),
(6891,'2018-11-12','2018','2018-11','November','N'),
(6892,'2018-11-13','2018','2018-11','November','N'),
(6893,'2018-11-14','2018','2018-11','November','N'),
(6894,'2018-11-15','2018','2018-11','November','N'),
(6895,'2018-11-16','2018','2018-11','November','N'),
(6896,'2018-11-17','2018','2018-11','November','N'),
(6897,'2018-11-18','2018','2018-11','November','N'),
(6898,'2018-11-19','2018','2018-11','November','N'),
(6899,'2018-11-20','2018','2018-11','November','N'),
(6900,'2018-11-21','2018','2018-11','November','N'),
(6901,'2018-11-22','2018','2018-11','November','N'),
(6902,'2018-11-23','2018','2018-11','November','N'),
(6903,'2018-11-24','2018','2018-11','November','N'),
(6904,'2018-11-25','2018','2018-11','November','N'),
(6905,'2018-11-26','2018','2018-11','November','N'),
(6906,'2018-11-27','2018','2018-11','November','N'),
(6907,'2018-11-28','2018','2018-11','November','N'),
(6908,'2018-11-29','2018','2018-11','November','N'),
(6909,'2018-11-30','2018','2018-11','November','Y');

第 3 步:事实表

从原始表创建一个事实表。在正常实践中，您将数据提取到 hdfs/hive，然后处理原始数据并创建一个包含历史数据的表，您可以在其中以增量方式不断插入。您可以深入了解数据仓库以获得正确的定义，但我将其称为事实表 - f_employee_balance。

这将重新创建包含缺失日期的原始表，并使用之前已知的余额填充缺失的余额。

--inner query to get all the possible dates
--outer self join query will populate the missing dates and balance 
drop table if exists f_employee_balance;
create table f_employee_balance 
stored as orc tblproperties ("orc.compress"="SNAPPY") as 
select q1.employee_id, q1.iso_date, 
nvl(last_value(r.balance, true) --initial dates to be populated with 0 balance
over (partition by q1.employee_id order by q1.iso_date rows between unbounded preceding and current row),0) as balance, 
month, year from ( 
  select distinct 
  r.employee_id,
  d.iso_date as iso_date, 
  d.month, d.year
from daily_employee_balance r, dimension_date d )q1 
  left outer join daily_employee_balance r on 
  (q1.employee_id = r.employee_id) and (q1.iso_date = r.iso_date);

第 4 步:分析

下面的查询将为您提供按月的真实平均值:

select employee_id, monthly_avg, month, year from (
    select employee_id, 
           row_number() over (partition by employee_id,year,month) as row_num,
           avg(balance) over (partition by employee_id,year,month) as monthly_avg, month, year from
           f_employee_balance)q1 
    where row_num = 1
    order by year, month;

第 5 步:结论

您可以将第 3 步和第 4 步合并在一起；这将使您免于创建额外的表。当您身处大数据世界时，您不必担心浪费额外的磁盘空间或开发时间。您可以轻松添加另一个磁盘或节点，并使用工作流自动执行该过程。有关详细信息，请查看数据仓库概念和配置单元分析查询。

关于hadoop - 在 hiveql 中，如果某些数据隐式不存在，计算平均值的最优雅/最有效的方法是什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/54012272/

文章推荐： html - 带边框的 CSS 等高 div

文章推荐： html - 将样式表与重叠样式相结合？

文章推荐： Hadoop-3.1.2 : Datanode and Nodemanager shuts down

mysql - 连接的子查询(存在/存在)
SELECT *, `o_cheque_request.member_id`, `o_cheque_request.wallet_id` FROM `o_cheque_request`, `o_mem
SQL查找是否"存在"，别再count了！
根据某一条件从数据库表中查询『有』与『没有』，只有两种状态，那为什么在写SQL的时候，还要**SELECT count(*)**呢？无论是刚入道的程序员新星，还是精湛沙场多年的程序员老白，都是一如
c# - 存在、读写只需一步
我试图找出一个文件是否存在，如果存在，验证css样式是否已经存在，如果不存在，将它们写在文件末尾... 我已经完成了这一切，但分 3 个步骤: 该文件是否存在？ FileInfo fi= new Fi
android - 如何检测iOS用户或Android用户是否“存在”？
我们正在开发即时消息传递应用程序，并且需要在用户的化身上用绿点显示用户 friend 的“状态”。 “状态”远远超出了“my_app_is_opened_and_on_focus”，这意味着(我猜可能
SQL 查询不存在，存在
模式 Movie(title, year, director, budget, earnings) Actor(stagename, realname, birthyear) ActedIn(stag
MySQL 触发器语法错误 IF 存在
我有一个正在尝试创建的 MySQL 触发器，但无法获得正确的语法。触发器应该遍历一组关键字并将其与插入数据库的新帖子的标题进行匹配。如果找到匹配项，它应该将新帖子分配给该存储桶并更新存储桶的关键字集
MYSQL 选择子查询 IF 存在
我有 3 个表......用户、更新和碰撞。我想向发出 api 请求的用户返回最新订单的 feed 更新，并提供显示 feed 中每个状态所需的所有数据。我还需要包括更新是否已被发出 api 请求的
ios - UIViewController 存在
我正在尝试呈现一个带有 UIView 的 UIViewController。以下是我在 viewDidLoad 方法中尝试的代码。 //create the view controller UIVi
mysql - 如何在一个查询中进行多个计数/存在？
我正在努力弄清楚如何在不对 mysql 进行两次调用的情况下从一个表中检查两件事。我有一个 Members 表。我想测试MemberID 列中是否存在某个值，以及PhoneNumber 列中是否存在
vba - 循环没有 Do 错误但 Do 存在
以下代码给出了一个没有 Do Compile 错误的循环: Loop Sheets("Snap").Rows(1).AutoFilter Field:=5, Criteria1:=List
dns - 域名通过 "dig"存在
是否可以通过检查“dig”的输出来检查域名的存在？在绑定(bind)源中，我发现了这些常量: 0 DNS_R_NOEROR 1 DNS_R_FORMERR 2 DNS_R_SERVFAIL 3 DN
php - Controller 存在，但找不到页面
Controller 有问题我在 Windows 上使用服务器，一切正常，但在互联网上我试图访问页面 social_apartament/beauty_life/并且找不到该页面，代码错误 404这
d - 存在 `static if`时如何生成文档
/** This is struct S. */ struct S(T) { static if(isFloatingPoint!T) { /// This version works
clojure - 类型删除如何帮助 Clojure 存在？
JVM 类型删除如何帮助 Clojure？没有它，Clojure 还能存在吗？如果 JVM 有具体化的类型会发生什么？也就是说，Clojure 将如何改变？最佳答案 Clojure 根本不会有太大变
c - 为什么 system() 存在？
许多论文等提到对“system()”的调用是不安全且不可移植的。我不反对他们的论点。不过，我注意到许多 Unix 实用程序都有一个等效的 C 库。如果没有，源可用于各种这些工具。虽然许多论文和此类
javascript - js如何让一个变量值根据用户登录 Node 存在
在我的 Node js 应用程序中，我有一个用户登录 api。上面我在服务器端代码中创建了一个名为 customerid 的变量。现在，当用户身份验证成功时。我将他的 userid 值存储在我的 cu
azure - 存在 DNS 详细信息时重用资源管理器模板
我有一个工作资源管理器组，由 Ubuntu 14.04 虚拟机、网络接口(interface)、公共(public) IP 地址和存储帐户组成。我已经从这组资源中创建了一个模板。当我尝试部署这组资源
javascript - 存在 javascript 循环引用问题
我有一个函数createminor4(arr，锦标赛)它基本上将arr分成4组，每组8人，然后将它们一次交换到tourney 1组。从那里它插入四个{}，其中有 4 个带有空数组的键。我已经在 Ch
r - 存在 2 个图例时如何更改图例点的大小
我有一个图表，其中有两个图例。我需要更改其中一个图例的点的大小。我需要更改图例中“市场类型”的项目符号大小。我使用示例 here但不适用于我的图表。我的代码如下: k <- ggplot(subs
javascript - 存在 jQuery 字符串比较问题
我有 fiddle here展示我正在尝试做的事情。我有一个动态生成的表，因此列可以按用户选择的任何顺序显示。因此，我尝试获取两个特定 header 的索引，以便可以将 CSS 类添加到这两列以供稍

可可西里

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

hadoop - 在 hiveql 中，如果某些数据隐式不存在，计算平均值的最优雅/最有效的方法是什么？