gpt4 book ai didi

apache-spark - Pyspark:在数据框中用 null 替换所有出现的值

转载 作者:行者123 更新时间:2023-12-03 15:11:49 26 4
gpt4 key购买 nike

我有一个类似于下面的数据框。我最初用 -1 填充所有空值以在 Pyspark 中进行连接。

df = pd.DataFrame({'Number': ['1', '2', '-1', '-1'],
'Letter': ['A', '-1', 'B', 'A'],
'Value': [30, 30, 30, -1]})


pyspark_df = spark.createDataFrame(df)

+------+------+-----+
|Number|Letter|Value|
+------+------+-----+
| 1| A| 30|
| 2| -1| 30|
| -1| B| 30|
| -1| A| -1|
+------+------+-----+
处理完数据集后,我需要将所有 -1 替换回空值。
+------+------+-----+
|Number|Letter|Value|
+------+------+-----+
| 1| A| 30|
| 2| null| 30|
| null| B| 30|
| null| A| null|
+------+------+-----+
什么是最简单的方法来做到这一点?

最佳答案

另一种更简洁的方法是使用 replace .

pyspark_df.replace(-1,None).replace('-1',None).show()

关于apache-spark - Pyspark:在数据框中用 null 替换所有出现的值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62641826/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com