gpt4 book ai didi

database - 来自不同数据集的百分位数组合 : how can this be accomplished?

转载 作者:太空狗 更新时间:2023-10-30 01:58:25 25 4
gpt4 key购买 nike

我需要计算一系列相关但分段的数据集的第 N 个百分位数。

由于内存限制,合并后的数据集太大,无法一次全部计算,但执行分段计算的框架已经到位。那么我如何对每个数据集执行计算,然后结合这些计算来找到我需要的百分位数?

关于数据的其他信息:

  • 数据经常有异常值。

  • 各个数据集的大小往往大致相同,但并非总是如此

  • 预计各个数据集不会共享相同的分布

我可以计算组合的中位数、均值和标准差,然后从那里估计任何百分位数吗?

最佳答案

仅靠中位数、均值和标准差是不够的,尤其是当您有异常值时。

如果需要精确的百分位数,这是一个并行计算问题。在这个方向上已经做了一些工作,例如在 parallel mode of the C++ STL library 中。 .

如果只需要近似百分位数,那么 Cross Validated 有一个问题 -- Estimation of quantile given quantiles of subset -- 这表明采用二次抽样方法。您将从每个数据集中获取一些(但不是全部)数据点,创建一个新的组合数据集,该数据集足够小以适合一台机器并计算其百分位数。

如果每个段的百分位数已经可用,另一种近似方法将是近似 cumulative distribution function。每个部分作为百分位数的阶跃函数。那么整体分布将是finite mixture分段分布和累积分布函数的分段累积分布函数的加权和。分位数函数(即百分位数)可以通过对累积分布函数进行数值反演来计算。

关于database - 来自不同数据集的百分位数组合 : how can this be accomplished?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8144858/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com