gpt4 book ai didi

scala - Spark SQL DataFrame——distinct() 与 dropDuplicates()

转载 作者:行者123 更新时间:2023-12-03 03:47:55 24 4
gpt4 key购买 nike

我正在查看 DataFrame API,我可以看到两种不同的方法执行相同的功能,从数据集中删除重复项。

我可以理解 dropDuplicates(colNames) 将仅考虑列的子集来删除重复项。

这两种方法还有其他区别吗?

最佳答案

主要区别是对列子集的考虑,这非常棒!使用distinct时,您需要事先.select来选择要应用重复的列,并且返回的Dataframe仅包含这些选定的列,而dropDuplicates(colNames)将根据列删除重复行后返回初始数据帧的所有列。

关于scala - Spark SQL DataFrame——distinct() 与 dropDuplicates(),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35666967/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com