- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试使用 collect_set 获取类别名称字符串列表 不是 groupby 的一部分。
我的代码是
from pyspark import SparkContext
from pyspark.sql import HiveContext
from pyspark.sql import functions as F
sc = SparkContext("local")
sqlContext = HiveContext(sc)
df = sqlContext.createDataFrame([
("1", "cat1", "Dept1", "product1", 7),
("2", "cat2", "Dept1", "product1", 100),
("3", "cat2", "Dept1", "product2", 3),
("4", "cat1", "Dept2", "product3", 5),
], ["id", "category_name", "department_id", "product_id", "value"])
df.show()
df.groupby("department_id", "product_id")\
.agg({'value': 'sum'}) \
.show()
# .agg( F.collect_set("category_name"))\
+---+-------------+-------------+----------+-----+
| id|category_name|department_id|product_id|value|
+---+-------------+-------------+----------+-----+
| 1| cat1| Dept1| product1| 7|
| 2| cat2| Dept1| product1| 100|
| 3| cat2| Dept1| product2| 3|
| 4| cat1| Dept2| product3| 5|
+---+-------------+-------------+----------+-----+
+-------------+----------+----------+
|department_id|product_id|sum(value)|
+-------------+----------+----------+
| Dept1| product2| 3|
| Dept1| product1| 107|
| Dept2| product3| 5|
+-------------+----------+----------+
+-------------+----------+----------+----------------------------+
|department_id|product_id|sum(value)| collect_list(category_name)|
+-------------+----------+----------+----------------------------+
| Dept1| product2| 3| cat2 |
| Dept1| product1| 107| cat1, cat2 |
| Dept2| product3| 5| cat1 |
+-------------+----------+----------+----------------------------+
df.groupby("department_id", "product_id")\
.agg({'value': 'sum'}) \
.agg(F.collect_set("category_name")) \
.show()
pyspark.sql.utils.AnalysisException: "cannot resolve '
category_name
' given input columns: [department_id, product_id, sum(value)];;\n'Aggregate [collect_set('category_name, 0, 0) AS collect_set(category_name)#35]\n+- Aggregate [department_id#2, product_id#3], [department_id#2, product_id#3, sum(value#4L) AS sum(value)#24L]\n +- LogicalRDD [id#0, category_name#1, department_id#2, product_id#3, value#4L]\n"
df.groupby("category_name", "department_id", "product_id")\
.agg({'value': 'sum'}) \
.agg(F.collect_set("category_name")) \
.show()
+--------------------------+
|collect_set(category_name)|
+--------------------------+
| [cat1, cat2]|
+--------------------------+
最佳答案
您可以specify multiple aggregations within one agg()
.您的案例的正确语法是:
df.groupby("department_id", "product_id")\
.agg(F.sum('value'), F.collect_set("category_name"))\
.show()
#+-------------+----------+----------+--------------------------+
#|department_id|product_id|sum(value)|collect_set(category_name)|
#+-------------+----------+----------+--------------------------+
#| Dept1| product2| 3| [cat2]|
#| Dept1| product1| 107| [cat1, cat2]|
#| Dept2| product3| 5| [cat1]|
#+-------------+----------+----------+--------------------------+
.agg()
在
pyspark.sql.group.GroupedData
上工作并返回一个新的 DataFrame。随后调用
agg
实际上是
pyspark.sql.DataFrame.agg
这是
shorthand for
df.groupBy.agg()
agg
的第二次调用再次分组,这不是你想要的。
关于group-by - groupby 之外的列的 pyspark collect_set,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58756259/
我想在使用 hive 时删除数组中的连续重复项。 collect_list()保留所有重复项,而 collect_set()只保留不同的条目。我有点需要一些中间立场。 例如,从下表: id | n
我有这张表: ╔═════════╦═════════╦══════════════╗ ║ user_id ║ item_id ║ date_visited ║ ╠═════════╬════════
假设我有一个包含 3 行的配置单元表:merchant_id、week_id、acc_id。我的目标是每周收集前 4 周内的唯一客户,我正在使用移动窗口来执行此操作。 我的代码: 创建测试表: CRE
我有下表: hive> describe tv_counter_stats; OK day string event string query_id string user
我正在处理大型数据集上的配置单元,我有一个包含列数组的表,列的内容如下。 ["20190302Prod4" "20190303Prod1" "20190303Prod4" "20190304Prod4
我正在尝试在配置单元查询中使用 collect_set 按条件对组中的列进行分组。每行都有空格作为分隔符,而不是“,”之类的。在这种情况下如何将分隔符更改为“,”或任何其他分隔符? 提前致谢。 问候,
我正在尝试使用 collect_set 获取类别名称字符串列表 不是 groupby 的一部分。 我的代码是 from pyspark import SparkContext from pyspark
我在 hive 中有一个表,如下所示 id name sal 1 sam 2000 2 Ram 3000 3 Tim 4000 4 Ash 5000 我想
一些测试数据,有两列:第一列二进制(在此示例中使用字母数字字节),第二列是整数: from pyspark.sql.types import * from pyspark.sql import fun
如何重写这些查询以避免在 reduce 阶段使用单个 reducer?它需要永远,我失去了使用它的并行性的好处。 select id , count(distinct locations) AS un
我刚刚了解了 Hive 中的 collect_set() 函数,并开始从事开发 3 节点集群的工作。 我只有大约 10 GB 需要处理。然而,这项工作确实需要永远。我认为 collect_set()
有没有办法将重复项保存在 Hive 的收集集中,或者使用其他方法模拟 Hive 提供的那种聚合集合?我想将列中具有相同键的所有项目聚合到一个数组中,并带有重复项。 IE: hash_id | num_
嗨,我在任何地方都找不到这个。 如何在 Google BigQuery 中执行 collect_set? 我有一个已经用大查询编写的查询 选择用户身份,脚步,从表 我需要将每个 user_id 的所有
如果我的目标是将列中的不同值收集为列表,使用其中任何一个是否存在性能差异或优缺点? df.select(column).distinct().collect()... 对比 df.select(col
我有 2 个表,sample_table1,下面有两列 C1 C2 001 a 001 b 001 e 002 c 002 b 003 a 003 c 和 sample_table2
我有下表,其中包含 id 的重复项以及每个 id 的值数组,我想找出每个 id 的唯一值,该怎么做? CREATE TABLE test( id string, values array) 当我运行以
在表 1 中,我有 customer_id、item_id 和 item_rank(根据一些销售额的项目排名)。我想为每个 customer_id 收集一个项目列表,并根据 item_rank 排列它
我有一个聚合 DataFrame,其中有一列是使用 collect_set 创建的。我现在需要再次聚合此 DataFrame,并再次将 collect_set 应用于该列的值。问题是我需要应用 col
Hive 查询 - select ...MYUDF(collect_set(col1))..from tableN 这里的 col1 是字符串类型。我想对传递的 collect_set 数据执行某些逻
我正在处理一个大型 spark DataFrame 中的一列数字,我想创建一个新列来存储出现在该列中的唯一数字的聚合列表。 基本上正是 functions.collect_set 所做的。但是,我只需
我是一名优秀的程序员,十分优秀!