gpt4 book ai didi

statistics - 确定最小样本数以实现 99% 的准确度

转载 作者:行者123 更新时间:2023-12-02 12:42:19 27 4
gpt4 key购买 nike

我正在尝试将本地数据库 (L) 上的 100,000 条记录与远程数据库 (R) 上的 100,000 条记录进行比较。

基本上我想知道L中的某个元素是否存在于R中。为了确定这一点,我必须为每个L向R发出请求,这需要很长时间(我知道,应该有更好的方法,没有,这是我拥有的 API)。

所以我想针对 R 测试 L 的一个小样本,然后以某种程度的置信度推断整个 R 中存在多少个样本。我需要测试多少个样本才能获得 99% 的置信度?

最佳答案

如果您测试本地数据库中的 N 条记录,并且所有记录都在远程数据库中,则可以估计本地记录不在远程数据库中的概率在 0 到 3/N 之间。这在统计学中被称为“三法则”。我解释一下here .

知道所有记录都在两个数据库中的唯一方法是测试所有记录。但如果您测试 100 条记录,例如,您可以估计不在两个数据库中的记录比例低于 3%。

关于statistics - 确定最小样本数以实现 99% 的准确度,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2669626/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com