hadoop - collect_set on array type with group by 在配置单元中-6ren

hadoop - collect_set on array type with group by 在配置单元中

转载作者：可可西里更新时间：2023-11-01 14:45:16

24

4

我有下表，其中包含 id 的重复项以及每个 id 的值数组，我想找出每个 id 的唯一值，该怎么做？

CREATE TABLE test(
id string,
values array<string>)

当我运行以下命令时，它会抛出错误，因为 collect_set 仅支持原始类型值。

select id, collect_set(values) from ts group by id;

错误:

FAILED: UDFArgumentTypeException Only primitive type arguments are accepted but array was passed as parameter 1.

最佳答案

如错误消息所述Only primitive type arguments are accepted but array was passed as parameter 1.，您需要在使用前将数组转换为String。

您可以使用 explode() 函数实现相同的效果。像这样的东西:

select 
  id, 
  collect_set(tokens) 
FROM
  ts LATERAL VIEW explode(values) x AS tokens
group by
  id;

关于hadoop - collect_set on array type with group by 在配置单元中，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43728191/

24

4

0

文章推荐： hadoop - Hive 查询以从字符串中分别提取日期和小时

文章推荐： Firefox 中的 HTML 按钮文本对齐方式

文章推荐： html - 固定位置 div 在顶部垂直空间

sql - Hive collect_set() 但要删除连续的重复项
我想在使用 hive 时删除数组中的连续重复项。 collect_list()保留所有重复项，而 collect_set()只保留不同的条目。我有点需要一些中间立场。例如，从下表: id | n
hadoop - 如何在不同列中使用 COLLECT_SET 和按条件分组
我有这张表: ╔═════════╦═════════╦══════════════╗ ║ user_id ║ item_id ║ date_visited ║ ╠═════════╬════════
hadoop - 在配置单元中的移动窗口函数上执行 collect_set 时只保留不同的行
假设我有一个包含 3 行的配置单元表:merchant_id、week_id、acc_id。我的目标是每周收集前 4 周内的唯一客户，我正在使用移动窗口来执行此操作。我的代码: 创建测试表: CRE
hadoop - 配置单元 collect_set 崩溃查询
我有下表: hive> describe tv_counter_stats; OK day string event string query_id string user
sql - hive collect_set 数组操作
我正在处理大型数据集上的配置单元，我有一个包含列数组的表，列的内容如下。 ["20190302Prod4" "20190303Prod1" "20190303Prod4" "20190304Prod4
hadoop - 配置单元:使用带分隔符的 collect_set
我正在尝试在配置单元查询中使用 collect_set 按条件对组中的列进行分组。每行都有空格作为分隔符，而不是“，”之类的。在这种情况下如何将分隔符更改为“，”或任何其他分隔符？提前致谢。问候，
group-by - groupby 之外的列的 pyspark collect_set
我正在尝试使用 collect_set 获取类别名称字符串列表不是 groupby 的一部分。我的代码是 from pyspark import SparkContext from pyspark
mysql - 如何在 hive 查询中使用 collect_set
我在 hive 中有一个表，如下所示 id name sal 1 sam 2000 2 Ram 3000 3 Tim 4000 4 Ash 5000 我想
python - 带有二进制列的 Spark/PySpark collect_set
一些测试数据，有两列:第一列二进制(在此示例中使用字母数字字节)，第二列是整数: from pyspark.sql.types import * from pyspark.sql import fun
hadoop - 如何编写查询以避免在选择不同和大小的 collect_set 配置单元查询中使用单个 reducer？
如何重写这些查询以避免在 reduce 阶段使用单个 reducer？它需要永远，我失去了使用它的并行性的好处。 select id , count(distinct locations) AS un
hadoop - Hive (Hadoop) 中的 COLLECT_SET()
我刚刚了解了 Hive 中的 collect_set() 函数，并开始从事开发 3 节点集群的工作。我只有大约 10 GB 需要处理。然而，这项工作确实需要永远。我认为 collect_set()
java - Hive 中的 COLLECT_SET()，保留重复项？
有没有办法将重复项保存在 Hive 的收集集中，或者使用其他方法模拟 Hive 提供的那种聚合集合？我想将列中具有相同键的所有项目聚合到一个数组中，并带有重复项。 IE: hash_id | num_
google-bigquery - 谷歌 bigquery 的 collect_set
嗨，我在任何地方都找不到这个。如何在 Google BigQuery 中执行 collect_set？我有一个已经用大查询编写的查询选择用户身份，脚步，从表我需要将每个 user_id 的所有
apache-spark - Spark collect_set 与 distinct
如果我的目标是将列中的不同值收集为列表，使用其中任何一个是否存在性能差异或优缺点？ df.select(column).distinct().collect()... 对比 df.select(col
sql - 使用 collect_set 的 Hive 查询
我有 2 个表，sample_table1，下面有两列 C1 C2 001 a 001 b 001 e 002 c 002 b 003 a 003 c 和 sample_table2
hadoop - collect_set on array type with group by 在配置单元中
我有下表，其中包含 id 的重复项以及每个 id 的值数组，我想找出每个 id 的唯一值，该怎么做？ CREATE TABLE test( id string, values array) 当我运行以
sql - 如何在 hive 中通过 collect_set() 操作使用 order by
在表 1 中，我有 customer_id、item_id 和 item_rank(根据一些销售额的项目排名)。我想为每个 customer_id 收集一个项目列表，并根据 item_rank 排列它
java - Spark SQL : using collect_set over array values?
我有一个聚合 DataFrame，其中有一列是使用 collect_set 创建的。我现在需要再次聚合此 DataFrame，并再次将 collect_set 应用于该列的值。问题是我需要应用 col
hadoop - 如何在配置单元 udf 中使用 collect_set 的结果 - 评估方法？
Hive 查询 - select ...MYUDF(collect_set(col1))..from tableN 这里的 col1 是字符串类型。我想对传递的 collect_set 数据执行某些逻
apache-spark - 如何在 Spark SQL 中限制 functions.collect_set？
我正在处理一个大型 spark DataFrame 中的一列数字，我想创建一个新列来存储出现在该列中的唯一数字的聚合列表。基本上正是 functions.collect_set 所做的。但是，我只需

首页

博学

6Ren·AI

商城

hadoop - collect_set on array type with group by 在配置单元中