gpt4 book ai didi

pyspark - 为什么 pyspark 中的 groupBy() 比 distinct() 快很多?

转载 作者:行者123 更新时间:2023-12-03 17:31:57 28 4
gpt4 key购买 nike

当我替换 distinct() 时,我在 pyspark 代码中看到了很多性能提升。在带有 groupBy() 的 Spark 数据框上.但我无法理解其背后的原因。
整个目的是从数据框中删除行级重复项。

我尝试谷歌搜索 groupBy() 的实现和 distinct()在 pyspark 中,但无法找到它。

有人可以解释或指出我正确的解释方向吗?

最佳答案

distinct() 实现检查每一列,如果两行或多行完全相同,则保留第一行。
我认为这是主要原因,为什么distinct这么慢。

Check this topic too.

关于pyspark - 为什么 pyspark 中的 groupBy() 比 distinct() 快很多?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52274221/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com