group-by - groupby 之外的列的 pyspark collect

group-by - groupby 之外的列的 pyspark collect_set

转载作者：行者123 更新时间：2023-12-04 11:01:55

25

4

我正在尝试使用 collect_set 获取类别名称字符串列表不是 groupby 的一部分。
我的代码是

from pyspark import SparkContext
from pyspark.sql import HiveContext
from pyspark.sql import functions as F

sc = SparkContext("local")
sqlContext = HiveContext(sc)
df = sqlContext.createDataFrame([
     ("1", "cat1", "Dept1", "product1", 7),
     ("2", "cat2", "Dept1", "product1", 100),
     ("3", "cat2", "Dept1", "product2", 3),
     ("4", "cat1", "Dept2", "product3", 5),
    ], ["id", "category_name", "department_id", "product_id", "value"])

df.show()
df.groupby("department_id", "product_id")\
    .agg({'value': 'sum'}) \
    .show()

#            .agg( F.collect_set("category_name"))\

输出是

+---+-------------+-------------+----------+-----+
| id|category_name|department_id|product_id|value|
+---+-------------+-------------+----------+-----+
|  1|         cat1|        Dept1|  product1|    7|
|  2|         cat2|        Dept1|  product1|  100|
|  3|         cat2|        Dept1|  product2|    3|
|  4|         cat1|        Dept2|  product3|    5|
+---+-------------+-------------+----------+-----+

+-------------+----------+----------+
|department_id|product_id|sum(value)|
+-------------+----------+----------+
|        Dept1|  product2|         3|
|        Dept1|  product1|       107|
|        Dept2|  product3|         5|
+-------------+----------+----------+

我想要这个输出

+-------------+----------+----------+----------------------------+
|department_id|product_id|sum(value)| collect_list(category_name)|
+-------------+----------+----------+----------------------------+
|        Dept1|  product2|         3|  cat2                      |
|        Dept1|  product1|       107|  cat1, cat2                |
|        Dept2|  product3|         5|  cat1                      |
+-------------+----------+----------+----------------------------+

尝试 1

df.groupby("department_id", "product_id")\
    .agg({'value': 'sum'}) \
    .agg(F.collect_set("category_name")) \
    .show()

我收到了这个错误:

pyspark.sql.utils.AnalysisException: "cannot resolve 'category_name' given input columns: [department_id, product_id, sum(value)];;\n'Aggregate [collect_set('category_name, 0, 0) AS collect_set(category_name)#35]\n+- Aggregate [department_id#2, product_id#3], [department_id#2, product_id#3, sum(value#4L) AS sum(value)#24L]\n +- LogicalRDD [id#0, category_name#1, department_id#2, product_id#3, value#4L]\n"

尝试 2 我把 category_name 作为 groupby 的一部分

df.groupby("category_name", "department_id", "product_id")\
    .agg({'value': 'sum'}) \
    .agg(F.collect_set("category_name")) \
    .show()

它可以工作，但输出不正确

+--------------------------+
|collect_set(category_name)|
+--------------------------+
|              [cat1, cat2]|
+--------------------------+

最佳答案

您可以specify multiple aggregations within one agg() .您的案例的正确语法是:

df.groupby("department_id", "product_id")\
    .agg(F.sum('value'), F.collect_set("category_name"))\
    .show()
#+-------------+----------+----------+--------------------------+
#|department_id|product_id|sum(value)|collect_set(category_name)|
#+-------------+----------+----------+--------------------------+
#|        Dept1|  product2|         3|                    [cat2]|
#|        Dept1|  product1|       107|              [cat1, cat2]|
#|        Dept2|  product3|         5|                    [cat1]|
#+-------------+----------+----------+--------------------------+

您的方法不起作用，因为第一个 .agg()在 pyspark.sql.group.GroupedData 上工作并返回一个新的 DataFrame。随后调用 agg实际上是 pyspark.sql.DataFrame.agg 这是

shorthand for df.groupBy.agg()

所以本质上是对 agg 的第二次调用再次分组，这不是你想要的。

关于group-by - groupby 之外的列的 pyspark collect_set，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58756259/

25

4

0

文章推荐： android - 如何返回关闭 Activity 之间的 Activity ？

文章推荐： r - 如何在tibble列中找到最长的重复序列？

文章推荐： python - numpy 函数 `array_split` 在数学上是如何工作的？

文章推荐： laravel - 未找到类 'App\Http\Controllers\Api\Validator'

sql - Hive collect_set() 但要删除连续的重复项
我想在使用 hive 时删除数组中的连续重复项。 collect_list()保留所有重复项，而 collect_set()只保留不同的条目。我有点需要一些中间立场。例如，从下表: id | n
hadoop - 如何在不同列中使用 COLLECT_SET 和按条件分组
我有这张表: ╔═════════╦═════════╦══════════════╗ ║ user_id ║ item_id ║ date_visited ║ ╠═════════╬════════
hadoop - 在配置单元中的移动窗口函数上执行 collect_set 时只保留不同的行
假设我有一个包含 3 行的配置单元表:merchant_id、week_id、acc_id。我的目标是每周收集前 4 周内的唯一客户，我正在使用移动窗口来执行此操作。我的代码: 创建测试表: CRE
hadoop - 配置单元 collect_set 崩溃查询
我有下表: hive> describe tv_counter_stats; OK day string event string query_id string user
sql - hive collect_set 数组操作
我正在处理大型数据集上的配置单元，我有一个包含列数组的表，列的内容如下。 ["20190302Prod4" "20190303Prod1" "20190303Prod4" "20190304Prod4
hadoop - 配置单元:使用带分隔符的 collect_set
我正在尝试在配置单元查询中使用 collect_set 按条件对组中的列进行分组。每行都有空格作为分隔符，而不是“，”之类的。在这种情况下如何将分隔符更改为“，”或任何其他分隔符？提前致谢。问候，
group-by - groupby 之外的列的 pyspark collect_set
我正在尝试使用 collect_set 获取类别名称字符串列表不是 groupby 的一部分。我的代码是 from pyspark import SparkContext from pyspark
mysql - 如何在 hive 查询中使用 collect_set
我在 hive 中有一个表，如下所示 id name sal 1 sam 2000 2 Ram 3000 3 Tim 4000 4 Ash 5000 我想
python - 带有二进制列的 Spark/PySpark collect_set
一些测试数据，有两列:第一列二进制(在此示例中使用字母数字字节)，第二列是整数: from pyspark.sql.types import * from pyspark.sql import fun
hadoop - 如何编写查询以避免在选择不同和大小的 collect_set 配置单元查询中使用单个 reducer？
如何重写这些查询以避免在 reduce 阶段使用单个 reducer？它需要永远，我失去了使用它的并行性的好处。 select id , count(distinct locations) AS un
hadoop - Hive (Hadoop) 中的 COLLECT_SET()
我刚刚了解了 Hive 中的 collect_set() 函数，并开始从事开发 3 节点集群的工作。我只有大约 10 GB 需要处理。然而，这项工作确实需要永远。我认为 collect_set()
java - Hive 中的 COLLECT_SET()，保留重复项？
有没有办法将重复项保存在 Hive 的收集集中，或者使用其他方法模拟 Hive 提供的那种聚合集合？我想将列中具有相同键的所有项目聚合到一个数组中，并带有重复项。 IE: hash_id | num_
google-bigquery - 谷歌 bigquery 的 collect_set
嗨，我在任何地方都找不到这个。如何在 Google BigQuery 中执行 collect_set？我有一个已经用大查询编写的查询选择用户身份，脚步，从表我需要将每个 user_id 的所有
apache-spark - Spark collect_set 与 distinct
如果我的目标是将列中的不同值收集为列表，使用其中任何一个是否存在性能差异或优缺点？ df.select(column).distinct().collect()... 对比 df.select(col
sql - 使用 collect_set 的 Hive 查询
我有 2 个表，sample_table1，下面有两列 C1 C2 001 a 001 b 001 e 002 c 002 b 003 a 003 c 和 sample_table2
hadoop - collect_set on array type with group by 在配置单元中
我有下表，其中包含 id 的重复项以及每个 id 的值数组，我想找出每个 id 的唯一值，该怎么做？ CREATE TABLE test( id string, values array) 当我运行以
sql - 如何在 hive 中通过 collect_set() 操作使用 order by
在表 1 中，我有 customer_id、item_id 和 item_rank(根据一些销售额的项目排名)。我想为每个 customer_id 收集一个项目列表，并根据 item_rank 排列它
java - Spark SQL : using collect_set over array values?
我有一个聚合 DataFrame，其中有一列是使用 collect_set 创建的。我现在需要再次聚合此 DataFrame，并再次将 collect_set 应用于该列的值。问题是我需要应用 col
hadoop - 如何在配置单元 udf 中使用 collect_set 的结果 - 评估方法？
Hive 查询 - select ...MYUDF(collect_set(col1))..from tableN 这里的 col1 是字符串类型。我想对传递的 collect_set 数据执行某些逻
apache-spark - 如何在 Spark SQL 中限制 functions.collect_set？
我正在处理一个大型 spark DataFrame 中的一列数字，我想创建一个新列来存储出现在该列中的唯一数字的聚合列表。基本上正是 functions.collect_set 所做的。但是，我只需

首页

博学

6Ren·AI

商城

group-by - groupby 之外的列的 pyspark collect_set