gpt4 book ai didi

python - Pyspark 数据框如何删除所有列中的空行?

转载 作者:太空狗 更新时间:2023-10-29 20:40:20 26 4
gpt4 key购买 nike

对于一个dataframe,在它之前是这样的:

+----+----+----+
| ID|TYPE|CODE|
+----+----+----+
| 1| B| X1|
|null|null|null|
|null| B| X1|
+----+----+----+

之后我希望它是这样的:

+----+----+----+
| ID|TYPE|CODE|
+----+----+----+
| 1| B| X1|
|null| B| X1|
+----+----+----+

我更喜欢一种通用方法,这样它可以在 df.columns 很长时应用。谢谢!

最佳答案

只需要为 na.drop 提供策略即可:

df = spark.createDataFrame([
(1, "B", "X1"), (None, None, None), (None, "B", "X1"), (None, "C", None)],
("ID", "TYPE", "CODE")
)

df.na.drop(how="all").show()
+----+----+----+
| ID|TYPE|CODE|
+----+----+----+
| 1| B| X1|
|null| B| X1|
|null| C|null|
+----+----+----+

可以使用 threshold(NOT NULL 值的数量)实现替代公式:

df.na.drop(thresh=1).show()
+----+----+----+
| ID|TYPE|CODE|
+----+----+----+
| 1| B| X1|
|null| B| X1|
|null| C|null|
+----+----+----+

关于python - Pyspark 数据框如何删除所有列中的空行?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48228909/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com