hadoop - Proc Transpose 的 SAS Hive SQL (Hadoop) 版本？-6ren

hadoop - Proc Transpose 的 SAS Hive SQL (Hadoop) 版本？

转载作者：可可西里更新时间：2023-11-01 16:35:39

27

4

我想知道 SAS Hive SQL (Hadoop) 中是否有“Proc Transpose”版本？

否则我可以看到唯一的其他(冗长的)方法是创建许多单独的表然后重新连接在一起，我宁愿避免这种情况。

欢迎任何帮助!

要转置的示例表> 打算将月份放在表格的顶部，以便按月拆分费率:

+------+-------+----------+----------+-------+
| YEAR | MONTH |   Geog   | Category | Rates |
+------+-------+----------+----------+-------+
| 2018 |     1 | National | X        |    32 |
| 2018 |     1 | National | Y        |    43 |
| 2018 |     1 | National | Z        |    47 |
| 2018 |     1 | Regional | X        |    52 |
| 2018 |     1 | Regional | Y        |    38 |
| 2018 |     1 | Regional | Z        |    65 |
| 2018 |     2 | National | X        |    63 |
| 2018 |     2 | National | Y        |    14 |
| 2018 |     2 | National | Z        |    34 |
| 2018 |     2 | Regional | X        |    90 |
| 2018 |     2 | Regional | Y        |    71 |
| 2018 |     2 | Regional | Z        |    69 |
+------+-------+----------+----------+-------+

示例输出:

+------+----------+----------+----+----+
| YEAR |   Geog   | Category | 1  | 2  |
+------+----------+----------+----+----+
| 2018 | National | X        | 32 | 63 |
| 2018 | National | Y        | 43 | 14 |
| 2018 | National | Z        | 47 | 34 |
| 2018 | Regional | X        | 52 | 90 |
| 2018 | Regional | Y        | 38 | 71 |
| 2018 | Regional | Z        | 65 | 69 |
+------+----------+----------+----+----+

最佳答案

用于转置(或旋转)的典型wallpaper SQL 技术是group+transform to pivot case statements group 中的子查询折叠子查询的聚合查询。该组代表单个结果数据透视行。

比如你的组是year, geog, category 和min 用于折叠:

proc sql;
  create view want_pivot as
  select year, geog, category
  , min(rate_m1) as rate_m1
  , min(rate_m2) as rate_m2
  from
  ( select
    year, geog, category
    , case when month=1 then rates end as rate_m1
    , case when month=2 then rates end as rate_m2
    from have
  )
  group by year, geog, category
  ;

这里是相同的概念，更通用一点，其中数据在组内在细节级别重复，mean 用于折叠重复。

data have;
input id name $ value;
datalines;
1 a 1
1 a 2 
1 a 3
1 b 2
1 c 3
2 a 2
2 d 4
2 b 5
3 e 1
run;

proc sql;
  create view have_pivot as 
  select
  id
  , mean(a) as a
  , mean(b) as b
  , mean(c) as c
  , mean(d) as d
  , mean(e) as e
  from
  (
    select
      id
      , case when name='a' then value end as a
      , case when name='b' then value end as b
      , case when name='c' then value end as c
      , case when name='d' then value end as d
      , case when name='e' then value end as e
    from have
  )
  group by id
;
quit;

当列名不是先验已知时，您将需要编写一个代码生成器来传递所有数据以确定名称值，编写墙纸查询，该查询将对数据执行第二次传递以返回数据透视表。

此外，许多当代数据库都有一个 PIVOT 子句，可以通过传递来利用它。

Hadoop Mania post "TRANSPOSE/PIVOT a Table in Hive"以类似的墙纸方式显示 collect_list 和 map 的使用:

select b.id, b.code, concat_ws('',b.p) as p, concat_ws('',b.q) as q, concat_ws('',b.r) as r, concat_ws('',b.t) as t from
 (select id, code,
 collect_list(a.group_map['p']) as p,
 collect_list(a.group_map['q']) as q,
 collect_list(a.group_map['r']) as r,
 collect_list(a.group_map['t']) as t
 from ( select
  id, code,
  map(key,value) as group_map
  from test_sample
 ) a group by a.id, a.code) b;

关于hadoop - Proc Transpose 的 SAS Hive SQL (Hadoop) 版本？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/53478106/

27

4

0

文章推荐： hadoop - 使用 HiveStorageHandler 的 Kafka 生产者

文章推荐： c++ - 根据需要组装一个函数并快速计算

文章推荐： c++ - CMake 在使用 android-cmake 工具链文件时找不到 Boost 库

文章推荐： apache-spark - PySpark:如何在读取 Parquet 时读取分区列

proc -/proc kcore 文件很大
在经历了DDOS攻击后，不知何故/proc/kcore非常巨大，我使用一个小的php类来检查当前的磁盘空间，以及已经使用了多少。它显示以下内容: Total Disk Space: 39.2 GB
ruby - 仅当设置了 proc 时才调用可选的 proc
所以我从 ruby 移植了一个工具，可以在对象上定义回调 block ，我希望在设置回调的情况下调用它。所以基本上是这样的。 def set_block(&block) @new_kid_on
scope - Tcl:如何从不同的命名空间调用 proc，同时从它的命名空间传递一个变量给我的 proc？
我定义了两个脚本:第一个脚本调用第二个脚本中的 proc。第二个脚本定义了一个命名空间 fooSpace , 定义了一个变量 fooValue内fooSpace , 并定义了一个过程 myProc内f
bash - 在 proc 内运行 proc 时期望失败
使用一个 proc 时，我的脚本工作正常(检索 sftp 提示)。但是当我尝试在 proc 中使用 proc 时，脚本卡住了，我不知道为什么。请不要重构代码，这不是重点，我需要了解这里的问题。工作
c - 识别DMA内存在/proc/mtrr和/proc/iomem中？
我想知道是否有一种方法可以识别某些proc文件中用于DMA映射的内存，例如mtrr和iomem，或者通过lspic -vv . 在我的/proc/mtrr中，只有一个无法缓存区域，它似乎几乎指向3.5
linux - TCL 在 proc 之后调用另一个 proc
我有 2 个过程，它们一个接一个地调用。第一个过程使用 diff 功能并创建 file.txt。压缩文件后的过程。问题是当我运行脚本时，file.txt 是空的。当我注释掉压缩过程时，文件中打印了差异
linux -/proc/self 和/proc/$$ 之间有什么区别？
我曾经认为 /proc/self 和 /proc/$$ 在 bash 终端中是一样的，但现在我发现它们是不同的。我知道$$是当前进程的pid，/proc/self是当前运行的进程，应该是bash终端
tcl - 如何退出 TCL proc，而不退出在该 proc 内运行的进程
在下面的程序中，我想在第 2 个过程中捕获数据包，而 ping 在第 1 个过程中运行。现在，如果我执行这个程序，proc 正在运行 ping 并退出它。有解决此问题的想法吗？我的 TCL 代码:
tcl - 你能在 proc 中获取 "proc name"吗？
在 proc 中，您可以获得 proc 名称(无需对其进行硬编码)吗？例如 proc my_proc { some_arg } { puts "entering proc [some way
security - 访问 `proc` 文件系统以从系统应用程序读取 `/proc/[pid]/some-file`
我有一个自定义的 A10 存储库，我试图在其中创建一个能够读取 /proc/[pid]/some-file 的应用程序文件，例如stat和 status ，有点像 ps做。看完这篇 answer很明
TCL 调用另一个文件中的 proc，但找不到 proc : invalid command
我是 TCL 的新人。我通过 Windows Vista 下的 DOS 窗口“tclsh85 FOD/Scripts/program1.tcl”执行 TCL 代码。 program1.tcl 包含“s
android - 想让/proc/*/smaps输出匿名区域sum和/proc/meminfo AnonPages相匹配来精确追踪实际内存使用情况
我想查看每个进程的精确内存量用作匿名页，因为匿名内存不能调出，因此精确跟踪此使用情况非常重要。获取匿名页面总数的一种方法是读取/proc/meminfo AnonPages。另一种方法是将 sma
Ruby:Proc.new { 'waffles' } 与 proc { 'waffles' }
在 Ruby 中，Proc.new { 'waffles' } 和 proc { 'waffles' } 之间有什么区别吗？我发现很少有人提到第二种语法。使用 irb 进行测试，我没有发现任何明显的
python -/proc/net/ip_conntrack和/proc/net/nf_conntrack的详细信息
我正在寻找有关Linux系统上/proc/net/nf_conntrack和/或/proc/net/ip_contrack文件内容的详细文档。是的，我知道，有许多实用程序可以用人类可读的格式向我显示
performance - SAS:PROC FREQ 或 PROC REPORT 的单个表标题？
而不是执行多个单独的 PROC FREQ一个非常大的数据集上的程序，我想通过执行单个 PROC FREQ 来提高效率与多个 TABLE声明。我们的 QA 流程需要表格标题，这很简单，只需一个 TABL
linux-kernel - 如何在/proc/driver 下创建 proc 条目？
我想在 /proc/driver 下创建一个文件目录。我想使用像 proc_root_driver 这样的宏(或提供的其他东西)而不是明确使用“驱动程序/模块名称”。我用 create_proc_en
sql-server - SQL 用户只能运行 proc，但该 proc 可以做任何事情
在 SQL Server 2005 中，我希望名为 LimitedUser 的用户只能运行一个过程: GRANT EXEC ON [usp_RunETL] TO [LimitedUser] 但是，该
nim-lang - void proc 和带丢弃的 void proc 之间的区别
考虑到以下两个过程: proc firstOne(): void = echo "X" proc secondOne(): void = echo "X" discard 它们
SAS:在 PROC TABULATE 中复制 PROC MEANS 输出
我想使用 PROC TABULATE 复制 PROC MEANS 的输出。原因是我希望将利润百分比(或利润率)作为 PROC MEANS 输出中的变量之一，但希望抑制一个或多个统计数据的计算，即会有一
sas - 用于拟合连续(正支持)分布的 Proc 单变量和 Proc 严重性之间的差异
我的目标是使数据适合具有正支持的任何分布。 (威 bool (2p)、 Gamma (2p)、帕累托 (2p)、对数正态 (2p)、指数 (1P))。第一次尝试，我使用了 proc univariat

首页

博学

6Ren·AI

商城

hadoop - Proc Transpose 的 SAS Hive SQL (Hadoop) 版本？