gpt4 book ai didi

google-bigquery - BigQuery COUNT DISTINCT 估计错误

转载 作者:行者123 更新时间:2023-12-01 12:29:18 24 4
gpt4 key购买 nike

我知道 BigQuery 正在提供对 COUNT DISTINCT 的估计,但是是否有关于错误有多大以及它依赖于哪种参数的任何信息?

谢谢

最佳答案

COUNT DISTINCT 估计的准确性取决于不同值的实际数量。如果它很小 - 算法非常准确(对于小值,它通常返回精确值),但不同值的数量越多 - 它可能变得越不准确。请注意, COUNT(DISTINCT) 采用第二个参数,它以内存换取准确性,即它将使用更多内存,但更准确。例如:

SELECT COUNT(DISTINCT x, 100000) FROM T

如果 distict 值的总数小于 100,000,将返回相当准确的结果。

COUNT 个不同估计的确切算法各不相同,但不同的变体具有相似的误差估计 - 大约 1/SQRT(N),其中 N 是第二个参数。默认值为 1000,相当于大约 3% 的误差。如果达到 10000,则误差约为 1%。

关于google-bigquery - BigQuery COUNT DISTINCT 估计错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35873369/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com