- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
根据接受的答案 在 pyspark collect_set or collect_list with groupby ,当你做 collect_list
在某列上,null
此列中的值被删除。我已经检查过,这是真的。
但在我的情况下,我需要保留空列——我怎样才能做到这一点?
我没有找到任何关于这种 collect_list
变体的信息。功能。
解释为什么我想要空值的背景上下文:
我有一个数据框 df
如下:
cId | eId | amount | city
1 | 2 | 20.0 | Paris
1 | 2 | 30.0 | Seoul
1 | 3 | 10.0 | Phoenix
1 | 3 | 5.0 | null
"mappings": {
"doc": {
"properties": {
"eId": { "type": "keyword" },
"cId": { "type": "keyword" },
"transactions": {
"type": "nested",
"properties": {
"amount": { "type": "keyword" },
"city": { "type": "keyword" }
}
}
}
}
}
df_nested = df.groupBy('eId','cId').agg(collect_list(struct('amount','city')).alias("transactions"))
df_nested.printSchema()
root
|-- cId: integer (nullable = true)
|-- eId: integer (nullable = true)
|-- transactions: array (nullable = true)
| |-- element: struct (containsNull = true)
| | |-- amount: float (nullable = true)
| | |-- city: string (nullable = true)
df_nested
作为一个 json 文件,我得到了 json 记录:
{"cId":1,"eId":2,"transactions":[{"amount":20.0,"city":"Paris"},{"amount":30.0,"city":"Seoul"}]}
{"cId":1,"eId":3,"transactions":[{"amount":10.0,"city":"Phoenix"},{"amount":30.0}]}
cId=1
和
eId=3
,我的数组元素之一,其中
amount=30.0
没有
city
属性,因为这是一个
null
在我的原始数据中(
df
)。当我使用
collect_list
时,空值被删除功能。
collect_list
后保留我的空值的原因。功能。
最佳答案
from pyspark.sql.functions import create_map, collect_list, lit, col, to_json, from_json
from pyspark import SparkContext, SparkConf
from pyspark.sql import SQLContext, HiveContext, SparkSession, types, Row
from pyspark.sql import functions as f
import os
app_name = "CollList"
conf = SparkConf().setAppName(app_name)
spark = SparkSession.builder.appName(app_name).config(conf=conf).enableHiveSupport().getOrCreate()
df = spark.createDataFrame([[1, 2, 20.0, "Paris"], [1, 2, 30.0, "Seoul"],
[1, 3, 10.0, "Phoenix"], [1, 3, 5.0, None]],
["cId", "eId", "amount", "city"])
print("Actual data")
df.show(10,False)
```
Actual data
+---+---+------+-------+
|cId|eId|amount|city |
+---+---+------+-------+
|1 |2 |20.0 |Paris |
|1 |2 |30.0 |Seoul |
|1 |3 |10.0 |Phoenix|
|1 |3 |5.0 |null |
+---+---+------+-------+
```
#collect_list that skips null columns
df1 = df.groupBy(f.col('city'))\
.agg(f.collect_list(f.to_json(f.struct([f.col(x).alias(x) for x in (c for c in df.columns if c != 'cId' and c != 'eId' )])))).alias('newcol')
print("Collect List Data - Missing Null Columns in the list")
df1.show(10, False)
```
Collect List Data - Missing Null Columns in the list
+-------+-------------------------------------------------------------------------------------------------------------------+
|city |collect_list(structstojson(named_struct(NamePlaceholder(), amount AS `amount`, NamePlaceholder(), city AS `city`)))|
+-------+-------------------------------------------------------------------------------------------------------------------+
|Phoenix|[{"amount":10.0,"city":"Phoenix"}] |
|null |[{"amount":5.0}] |
|Paris |[{"amount":20.0,"city":"Paris"}] |
|Seoul |[{"amount":30.0,"city":"Seoul"}] |
+-------+-------------------------------------------------------------------------------------------------------------------+
```
my_list = []
for x in (c for c in df.columns if c != 'cId' and c != 'eId' ):
my_list.append(lit(x))
my_list.append(col(x))
grp_by = ["eId","cId"]
df_nested = df.withColumn("transactions", create_map(my_list))\
.groupBy(grp_by)\
.agg(collect_list(f.to_json("transactions")).alias("transactions"))
print("collect list after create_map")
df_nested.show(10,False)
```
collect list after create_map
+---+---+--------------------------------------------------------------------+
|eId|cId|transactions |
+---+---+--------------------------------------------------------------------+
|2 |1 |[{"amount":"20.0","city":"Paris"}, {"amount":"30.0","city":"Seoul"}]|
|3 |1 |[{"amount":"10.0","city":"Phoenix"}, {"amount":"5.0","city":null}] |
+---+---+--------------------------------------------------------------------+
```
关于nested - Pyspark - 使用 collect_list 时保留空值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49395458/
想象一下,我有以下 DataFrame df: +---+-----------+------------+ | id|featureName|featureValue| +---+---------
我正在尝试使用对现有列集的 groupby 聚合在 Pyspark 中创建一个新的列表列。下面提供了一个示例输入数据框: ------------------------ id | date
这看起来确实像一个错误,但我找不到原因,也找不到互联网上的任何信息 发生了什么:我有一些 java 代码,在 groupBy 之后的 agg 方法中使用 collect_list(struct(...
说我的表是这样的: Name,Subject,Score Jon,English,80 Amy,Geography,70 Matt,English,90 Jon,Math,100 Jon,Histor
每当我在Hive上运行函数“collect_list”时,它总是会引发错误: Query ID = xxxxx Total jobs = 1 Launching Job 1 out of 1 Fail
我有以下格式的数据框: name merged key1 (internalKey1, value1) key1 (internalKey2, value2) ... k
根据帖子,Hive 0.12 - Collect_list ,我试图找到 Java 代码来实现一个 UDAF,它将完成这个或类似的功能,但没有重复序列。 例如,collect_all() 返回一个序列
This page说到 collect_list: Returns a list of objects with duplicates. 那个 list 是有序的吗?比如查询结果的顺序? 最佳答案 正
根据接受的答案 在 pyspark collect_set or collect_list with groupby ,当你做 collect_list在某列上,null此列中的值被删除。我已经检查过
我有一个 pyspark 2.0.1。我正在尝试对我的数据框进行分组并从我的数据框中检索所有字段的值。我发现 z=data1.groupby('country').agg(F.collect_list
我有一张这样的 table : Clients City Timestamp 1 NY 0 1 WDC 10 1 NY
假设我有一个看起来像这样的 hive 表: ID event order_num ------------------------ A red 2 A
我有以下数据框 data : root |-- userId: string |-- product: string |-- rating: double 以及以下查询: val result
这个问题在这里已经有了答案: How to filter based on array value in PySpark? (2 个回答) 3年前关闭。 我正在处理一个数据框 df ,例如以下数据框:
我在 Hive 中使用以下命令。并得到正确的结果。 select acct_id,collect_list(expr_dt) from experiences > group by acct_
一系列 UNION ALL 生成我想用来构建 MAP 的键值对列表。 所需的功能是这样的: select id1, id2, map(collect_list(col)) as measurement
我正在尝试收集包含 NULL 的列以及该列中的一些值...但是 collect_list 忽略了 NULL并仅收集其中具有值(value)的那些。有没有一种方法可以检索 NULL 以及其他值? SEL
我是数据砖 Spark SQL 的新手。我正在寻找嵌套的 collect_list 并试图找出答案。 下面是我的 spark 实际 sql 查询 select policy.C
假设我们有虹膜数据框: import pandas as pd df = pd.read_csv('https://raw.githubusercontent.com/uiuc-cse/data-fa
我目前正在使用 PySpark 并在包含大约 6 亿条记录的表上运行查询。该表本身约为 300gb。我的查询看起来像这样: select f1, collect_list(struct(f2, f3)
我是一名优秀的程序员,十分优秀!