gpt4 book ai didi

random - 如何从非常庞大的数据集中获得无偏随机样本?

转载 作者:行者123 更新时间:2023-12-04 07:40:07 27 4
gpt4 key购买 nike

对于我正在处理的应用程序,我需要从一个非常大的数据集中抽取一小部分值,从大约 60 万亿(并且还在增长)中提取大约几百个。

通常我使用的技术是看一个均匀的随机数 r (0..1) 是否小于 S/T,其中 S 是我仍然需要的样本项目数,T 是项目中的项目数设置我还没有考虑过。

但是,对于这些新数据,我没有时间为每个值掷骰子;太多了。相反,我想生成随机数的条目以“跳过”,选择下一个位置的值,然后重复。这样我就可以掷骰子并访问列表 S 次。 (S是我想要的样本大小。)

我希望有一种简单的方法可以按照 S/T 测试的方式创建无偏样本。

  • 老实说,大致无偏见就可以了。

  • 这与此人的问题有关(或多或少是后续问题):

https://math.stackexchange.com/questions/350041/simple-random-sample-without-replacement

  • 还有一个问题……首先向我展示这个的人称它为“ postman 算法”,但我不确定他是否在耍我。对吗?

最佳答案

这个怎么样:

  • 预先计算从 0 到数据集大小的 S 个随机数。
  • 按从低到高的顺序排列
  • 存储连续数字之间的差作为跳过大小
  • 使用上面的跳过大小遍历大型数据集。

...假设您收集样本的顺序并不重要

关于random - 如何从非常庞大的数据集中获得无偏随机样本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15798602/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com