gpt4 book ai didi

database - 从无限流中选择 10% 的随机数

转载 作者:可可西里 更新时间:2023-11-01 14:31:56 25 4
gpt4 key购买 nike

一连串的数字传来。在任何时候我都可能需要 10% 的随机数。我显然不想存储整个流。

更大的问题是我正在考虑上述算法。我有很多数据(基于时间戳)进入数据库。现在我还想构建一个示例表,其中包含主数据库表中 10% 的随机记录,这样如果想快速查询并且我可以接受很少的不准确,我可以快速查询。我分批收到消息(数字)说有时 100 有时 20 有时 5 等。

我在想我会在流式传输时这样做,问题表明了这一点。有人可以为此建议一个好的算法。有没有更好的办法 ?

最佳答案

简单的解决方案是只保存每 10 个传入数据点,但这可能会导致有偏差的结果,具体取决于数据的随机性。

如果您想在传入流上模拟一个真正随机的 10% 样本,您可以使用 Poisson Distribution ,平均值为 9,以决定在记录下一个条目之前要跳过多少条目。不过,设置一个上限可能是个好主意,这样您就不会在数据中出现罕见但可预见的大差距。

关于database - 从无限流中选择 10% 的随机数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16696138/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com