gpt4 book ai didi

python - 检查 PySpark Dataframe 中列的所有值是否相等

转载 作者:行者123 更新时间:2023-12-02 18:33:46 24 4
gpt4 key购买 nike

我必须删除不向我的数据集添加信息的列,即所有条目中具有相同值的列。

我设计了两种方法来做到这一点

  1. 使用最大值和最小值的方法:
for col in df.columns:
if df.agg(F.min(col)).collect()[0][0] == df.agg(F.max(col)).collect()[0][0]:
df = df.drop(col)
  1. 另一个,使用 distinct 和 count:
for col in df.columns:
if df.select(col).distinct().count() == 1:
df = df.drop(col)

是否有更好、更快或更直接的方法来做到这一点?

最佳答案

df = df.drop(*(col for col in df.columns if df.select(col).distinct().count() == 1))

关于python - 检查 PySpark Dataframe 中列的所有值是否相等,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/69086500/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com