gpt4 book ai didi

python - spark函数中approxCountDsitinct和approx_count_distinct的区别

转载 作者:行者123 更新时间:2023-12-05 04:58:58 34 4
gpt4 key购买 nike

谁能说出 pyspark.sql.functions.approxCountDistinct(我知道它已被弃用)和 pyspark.sql.functions.approx_count_distinct 之间的区别?我在一个项目中使用过这两个版本,体验过不同的值(value)

最佳答案

正如您所提到的,pyspark.sql.functions.approxCountDistinct 已弃用。原因很可能只是风格问题。他们可能希望所有东西都装在蛇壳里。正如您在 the source code 中看到的那样pyspark.sql.functions.approxCountDistinct 只是调用 pyspark.sql.functions.approx_count_distinct,只是给你一个警告。因此,无论您使用哪一个,最终都会运行相同的代码。

此外,仍然根据源代码,approx_count_distinct是基于HyperLogLog++的。算法。我不太熟悉该算法,但它基于重复的集合合并。因此,结果很可能取决于合并执行者的各种结果的顺序。由于这对于 spark 不是确定性的,这可以解释为什么您会看到不同的结果。

关于python - spark函数中approxCountDsitinct和approx_count_distinct的区别,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63695845/

34 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com