- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
假设我有一个包含 3 行的配置单元表:merchant_id、week_id、acc_id。我的目标是每周收集前 4 周内的唯一客户,我正在使用移动窗口来执行此操作。
我的代码:
创建测试表:
CREATE TABLE table_test_test (merchant_id INT, week_id INT, acc_id INT);
INSERT INTO TABLE table_test_test VALUES
(1,0,8),
(1,0,9),
(1,0,10),
(1,2,1),
(1,2,2),
(1,2,4),
(1,4,1),
(1,4,3),
(1,4,4),
(1,5,1),
(1,5,3),
(1,5,5),
(1,6,1),
(1,6,5),
(1,6,6)
然后收集:
select
merchant_id,
week_id,
collect_set(acc_id) over (partition by merchant_id ORDER BY week_id RANGE BETWEEN 4 preceding AND 0 preceding) as uniq_accs_prev_4_weeks
from
table_test_test
结果表是:
merchant_id week_id uniq_accs_prev_4_weeks
1 1 0 []
2 1 0 []
3 1 0 []
4 1 2 [9,8,10]
5 1 2 [9,8,10]
6 1 2 [9,8,10]
7 1 4 [9,8,10,1,2,4]
8 1 4 [9,8,10,1,2,4]
9 1 4 [9,8,10,1,2,4]
10 1 5 [1,2,4,3]
11 1 5 [1,2,4,3]
12 1 5 [1,2,4,3]
13 1 6 [1,2,4,3,5]
14 1 6 [1,2,4,3,5]
15 1 6 [1,2,4,3,5]
如您所见,表格中有多余的行。这只是一个例子,在我的实际情况下,这个表很大,冗余导致内存问题。
我尝试过使用 distinct 和 group by,但这些都不起作用。
有什么好的方法吗?非常感谢。
最佳答案
不同的效果很好:
select distinct merchant_id, week_id, uniq_accs_prev_4_weeks
from
(
select
merchant_id,
week_id,
collect_set(acc_id) over (partition by merchant_id ORDER BY week_id RANGE BETWEEN 4 preceding AND current row) as uniq_accs_prev_4_weeks
from
table_test_test
)s;
结果:
OK
1 0 [9,8,10]
1 2 [9,8,10,1,2,4]
1 4 [9,8,10,1,2,4,3]
1 5 [1,2,4,3,5]
1 6 [1,2,4,3,5,6]
Time taken: 98.088 seconds, Fetched: 5 row(s)
我的 Hive 不接受 0 preceding
,我替换为 current row
。好像this bug或 this bug ,我的Hive版本是1.2。在上部子查询中添加 distinct 后,您的应该可以正常工作。
关于hadoop - 在配置单元中的移动窗口函数上执行 collect_set 时只保留不同的行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56282735/
我想在使用 hive 时删除数组中的连续重复项。 collect_list()保留所有重复项,而 collect_set()只保留不同的条目。我有点需要一些中间立场。 例如,从下表: id | n
我有这张表: ╔═════════╦═════════╦══════════════╗ ║ user_id ║ item_id ║ date_visited ║ ╠═════════╬════════
假设我有一个包含 3 行的配置单元表:merchant_id、week_id、acc_id。我的目标是每周收集前 4 周内的唯一客户,我正在使用移动窗口来执行此操作。 我的代码: 创建测试表: CRE
我有下表: hive> describe tv_counter_stats; OK day string event string query_id string user
我正在处理大型数据集上的配置单元,我有一个包含列数组的表,列的内容如下。 ["20190302Prod4" "20190303Prod1" "20190303Prod4" "20190304Prod4
我正在尝试在配置单元查询中使用 collect_set 按条件对组中的列进行分组。每行都有空格作为分隔符,而不是“,”之类的。在这种情况下如何将分隔符更改为“,”或任何其他分隔符? 提前致谢。 问候,
我正在尝试使用 collect_set 获取类别名称字符串列表 不是 groupby 的一部分。 我的代码是 from pyspark import SparkContext from pyspark
我在 hive 中有一个表,如下所示 id name sal 1 sam 2000 2 Ram 3000 3 Tim 4000 4 Ash 5000 我想
一些测试数据,有两列:第一列二进制(在此示例中使用字母数字字节),第二列是整数: from pyspark.sql.types import * from pyspark.sql import fun
如何重写这些查询以避免在 reduce 阶段使用单个 reducer?它需要永远,我失去了使用它的并行性的好处。 select id , count(distinct locations) AS un
我刚刚了解了 Hive 中的 collect_set() 函数,并开始从事开发 3 节点集群的工作。 我只有大约 10 GB 需要处理。然而,这项工作确实需要永远。我认为 collect_set()
有没有办法将重复项保存在 Hive 的收集集中,或者使用其他方法模拟 Hive 提供的那种聚合集合?我想将列中具有相同键的所有项目聚合到一个数组中,并带有重复项。 IE: hash_id | num_
嗨,我在任何地方都找不到这个。 如何在 Google BigQuery 中执行 collect_set? 我有一个已经用大查询编写的查询 选择用户身份,脚步,从表 我需要将每个 user_id 的所有
如果我的目标是将列中的不同值收集为列表,使用其中任何一个是否存在性能差异或优缺点? df.select(column).distinct().collect()... 对比 df.select(col
我有 2 个表,sample_table1,下面有两列 C1 C2 001 a 001 b 001 e 002 c 002 b 003 a 003 c 和 sample_table2
我有下表,其中包含 id 的重复项以及每个 id 的值数组,我想找出每个 id 的唯一值,该怎么做? CREATE TABLE test( id string, values array) 当我运行以
在表 1 中,我有 customer_id、item_id 和 item_rank(根据一些销售额的项目排名)。我想为每个 customer_id 收集一个项目列表,并根据 item_rank 排列它
我有一个聚合 DataFrame,其中有一列是使用 collect_set 创建的。我现在需要再次聚合此 DataFrame,并再次将 collect_set 应用于该列的值。问题是我需要应用 col
Hive 查询 - select ...MYUDF(collect_set(col1))..from tableN 这里的 col1 是字符串类型。我想对传递的 collect_set 数据执行某些逻
我正在处理一个大型 spark DataFrame 中的一列数字,我想创建一个新列来存储出现在该列中的唯一数字的聚合列表。 基本上正是 functions.collect_set 所做的。但是,我只需
我是一名优秀的程序员,十分优秀!