hadoop - 在配置单元中的移动窗口函数上执行 collect

hadoop - 在配置单元中的移动窗口函数上执行 collect_set 时只保留不同的行

转载作者：可可西里更新时间：2023-11-01 15:43:07

24

4

假设我有一个包含 3 行的配置单元表:merchant_id、week_id、acc_id。我的目标是每周收集前 4 周内的唯一客户，我正在使用移动窗口来执行此操作。

我的代码:

创建测试表:

CREATE TABLE table_test_test (merchant_id INT, week_id INT, acc_id INT);

INSERT INTO TABLE table_test_test VALUES  
(1,0,8),  
(1,0,9),  
(1,0,10),  
(1,2,1),  
(1,2,2),  
(1,2,4),  
(1,4,1),  
(1,4,3),  
(1,4,4), 
(1,5,1),  
(1,5,3),  
(1,5,5), 
(1,6,1),  
(1,6,5),  
(1,6,6)

然后收集:

select 
merchant_id, 
week_id, 
collect_set(acc_id) over (partition by merchant_id ORDER BY week_id RANGE BETWEEN 4 preceding AND 0 preceding) as uniq_accs_prev_4_weeks
from 
table_test_test

结果表是:

    merchant_id week_id uniq_accs_prev_4_weeks
1   1   0   []
2   1   0   []
3   1   0   []
4   1   2   [9,8,10]
5   1   2   [9,8,10]
6   1   2   [9,8,10]
7   1   4   [9,8,10,1,2,4]
8   1   4   [9,8,10,1,2,4]
9   1   4   [9,8,10,1,2,4]
10  1   5   [1,2,4,3]
11  1   5   [1,2,4,3]
12  1   5   [1,2,4,3]
13  1   6   [1,2,4,3,5]
14  1   6   [1,2,4,3,5]
15  1   6   [1,2,4,3,5]

如您所见，表格中有多余的行。这只是一个例子，在我的实际情况下，这个表很大，冗余导致内存问题。

我尝试过使用 distinct 和 group by，但这些都不起作用。

有什么好的方法吗？非常感谢。

最佳答案

不同的效果很好:

select distinct merchant_id, week_id, uniq_accs_prev_4_weeks 
  from
(
select 
merchant_id, 
week_id, 
collect_set(acc_id) over (partition by merchant_id ORDER BY week_id RANGE BETWEEN 4 preceding AND current row) as uniq_accs_prev_4_weeks
from 
table_test_test
)s;

结果:

OK
1       0       [9,8,10]
1       2       [9,8,10,1,2,4]
1       4       [9,8,10,1,2,4,3]
1       5       [1,2,4,3,5]
1       6       [1,2,4,3,5,6]
Time taken: 98.088 seconds, Fetched: 5 row(s)

我的 Hive 不接受 0 preceding，我替换为 current row。好像this bug或 this bug ，我的Hive版本是1.2。在上部子查询中添加 distinct 后，您的应该可以正常工作。

关于hadoop - 在配置单元中的移动窗口函数上执行 collect_set 时只保留不同的行，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56282735/

24

4

0

文章推荐： sql查询中的python列表作为参数

文章推荐： scala - 文件合并逻辑 : scala

sql - Hive collect_set() 但要删除连续的重复项
我想在使用 hive 时删除数组中的连续重复项。 collect_list()保留所有重复项，而 collect_set()只保留不同的条目。我有点需要一些中间立场。例如，从下表: id | n
hadoop - 如何在不同列中使用 COLLECT_SET 和按条件分组
我有这张表: ╔═════════╦═════════╦══════════════╗ ║ user_id ║ item_id ║ date_visited ║ ╠═════════╬════════
hadoop - 在配置单元中的移动窗口函数上执行 collect_set 时只保留不同的行
假设我有一个包含 3 行的配置单元表:merchant_id、week_id、acc_id。我的目标是每周收集前 4 周内的唯一客户，我正在使用移动窗口来执行此操作。我的代码: 创建测试表: CRE
hadoop - 配置单元 collect_set 崩溃查询
我有下表: hive> describe tv_counter_stats; OK day string event string query_id string user
sql - hive collect_set 数组操作
我正在处理大型数据集上的配置单元，我有一个包含列数组的表，列的内容如下。 ["20190302Prod4" "20190303Prod1" "20190303Prod4" "20190304Prod4
hadoop - 配置单元:使用带分隔符的 collect_set
我正在尝试在配置单元查询中使用 collect_set 按条件对组中的列进行分组。每行都有空格作为分隔符，而不是“，”之类的。在这种情况下如何将分隔符更改为“，”或任何其他分隔符？提前致谢。问候，
group-by - groupby 之外的列的 pyspark collect_set
我正在尝试使用 collect_set 获取类别名称字符串列表不是 groupby 的一部分。我的代码是 from pyspark import SparkContext from pyspark
mysql - 如何在 hive 查询中使用 collect_set
我在 hive 中有一个表，如下所示 id name sal 1 sam 2000 2 Ram 3000 3 Tim 4000 4 Ash 5000 我想
python - 带有二进制列的 Spark/PySpark collect_set
一些测试数据，有两列:第一列二进制(在此示例中使用字母数字字节)，第二列是整数: from pyspark.sql.types import * from pyspark.sql import fun
hadoop - 如何编写查询以避免在选择不同和大小的 collect_set 配置单元查询中使用单个 reducer？
如何重写这些查询以避免在 reduce 阶段使用单个 reducer？它需要永远，我失去了使用它的并行性的好处。 select id , count(distinct locations) AS un
hadoop - Hive (Hadoop) 中的 COLLECT_SET()
我刚刚了解了 Hive 中的 collect_set() 函数，并开始从事开发 3 节点集群的工作。我只有大约 10 GB 需要处理。然而，这项工作确实需要永远。我认为 collect_set()
java - Hive 中的 COLLECT_SET()，保留重复项？
有没有办法将重复项保存在 Hive 的收集集中，或者使用其他方法模拟 Hive 提供的那种聚合集合？我想将列中具有相同键的所有项目聚合到一个数组中，并带有重复项。 IE: hash_id | num_
google-bigquery - 谷歌 bigquery 的 collect_set
嗨，我在任何地方都找不到这个。如何在 Google BigQuery 中执行 collect_set？我有一个已经用大查询编写的查询选择用户身份，脚步，从表我需要将每个 user_id 的所有
apache-spark - Spark collect_set 与 distinct
如果我的目标是将列中的不同值收集为列表，使用其中任何一个是否存在性能差异或优缺点？ df.select(column).distinct().collect()... 对比 df.select(col
sql - 使用 collect_set 的 Hive 查询
我有 2 个表，sample_table1，下面有两列 C1 C2 001 a 001 b 001 e 002 c 002 b 003 a 003 c 和 sample_table2
hadoop - collect_set on array type with group by 在配置单元中
我有下表，其中包含 id 的重复项以及每个 id 的值数组，我想找出每个 id 的唯一值，该怎么做？ CREATE TABLE test( id string, values array) 当我运行以
sql - 如何在 hive 中通过 collect_set() 操作使用 order by
在表 1 中，我有 customer_id、item_id 和 item_rank(根据一些销售额的项目排名)。我想为每个 customer_id 收集一个项目列表，并根据 item_rank 排列它
java - Spark SQL : using collect_set over array values?
我有一个聚合 DataFrame，其中有一列是使用 collect_set 创建的。我现在需要再次聚合此 DataFrame，并再次将 collect_set 应用于该列的值。问题是我需要应用 col
hadoop - 如何在配置单元 udf 中使用 collect_set 的结果 - 评估方法？
Hive 查询 - select ...MYUDF(collect_set(col1))..from tableN 这里的 col1 是字符串类型。我想对传递的 collect_set 数据执行某些逻
apache-spark - 如何在 Spark SQL 中限制 functions.collect_set？
我正在处理一个大型 spark DataFrame 中的一列数字，我想创建一个新列来存储出现在该列中的唯一数字的聚合列表。基本上正是 functions.collect_set 所做的。但是，我只需

首页

博学

6Ren·AI

商城

hadoop - 在配置单元中的移动窗口函数上执行 collect_set 时只保留不同的行