gpt4 book ai didi

python - 在 pyspark 数据框中显示不同的列值

转载 作者:行者123 更新时间:2023-12-02 11:53:48 25 4
gpt4 key购买 nike

使用 pyspark dataframe,如何执行 Pandas 的等效操作 df['col'].unique()

我想列出 pyspark 数据框列中的所有唯一值。

不是 SQL 类型方式(注册模板,然后 SQL 查询不同的值)。

此外,我不需要 groupby 然后 countDistinct,而是想检查该列中的不同值。

最佳答案

这应该有助于获取列的不同值:

df.select('column1').distinct().collect()

请注意,.collect() 对于可以返回的值数量没有任何内置限制,因此这可能会很慢 - 请使用 .show()相反,或者在 .collect() 之前添加 .limit(20) 来管理它。

关于python - 在 pyspark 数据框中显示不同的列值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39383557/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com