gpt4 book ai didi

pyspark - 如何在pyspark中自动删除常量列?

转载 作者:行者123 更新时间:2023-12-03 04:56:24 25 4
gpt4 key购买 nike

我在 pyspark 中有一个 Spark 数据框,我需要从数据框中删除所有常量列。由于我不知道哪些列是常量,因此我无法手动取消选择常量列,即我需要一个自动过程。我很惊讶我无法在 stackoverflow 上找到简单的解决方案。

示例:

import pandas as pd
import pyspark
from pyspark.sql.session import SparkSession
spark = SparkSession.builder.appName("test").getOrCreate()

d = {'col1': [1, 2, 3, 4, 5],
'col2': [1, 2, 3, 4, 5],
'col3': [0, 0, 0, 0, 0],
'col4': [0, 0, 0, 0, 0]}
df_panda = pd.DataFrame(data=d)
df_spark = spark.createDataFrame(df_panda)
df_spark.show()

输出:

+----+----+----+----+
|col1|col2|col3|col4|
+----+----+----+----+
| 1| 1| 0| 0|
| 2| 2| 0| 0|
| 3| 3| 0| 0|
| 4| 4| 0| 0|
| 5| 5| 0| 0|
+----+----+----+----+

期望的输出:

+----+----+
|col1|col2|
+----+----+
| 1| 1|
| 2| 2|
| 3| 3|
| 4| 4|
| 5| 5|
+----+----+

在 pyspark 中自动删除常量列的最佳方法是什么?

最佳答案

首先计算每列中的不同值,然后删除仅包含一个不同值的列:

import pyspark.sql.functions as f
cnt = df_spark.agg(*(f.countDistinct(c).alias(c) for c in df_spark.columns)).first()
cnt
# Row(col1=5, col2=5, col3=1, col4=1)
df_spark.drop(*[c for c in cnt.asDict() if cnt[c] == 1]).show()
+----+----+
|col1|col2|
+----+----+
| 1| 1|
| 2| 2|
| 3| 3|
| 4| 4|
| 5| 5|
+----+----+

关于pyspark - 如何在pyspark中自动删除常量列?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55786095/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com