gpt4 book ai didi

python - 自举估计方差为何减少的数学解释

转载 作者:行者123 更新时间:2023-11-30 09:04:29 28 4
gpt4 key购买 nike

我正在尝试理解引导装袋(引导聚合),所以我一直在尝试执行一些实验。我加载了 sample dataset from Kaggle并尝试使用引导方法:

X = pd.read_csv("dataset.csv")
true_median = np.median(X["Impressions"])
B = 500
errors = []
variances = []
for b in range(1, B):
sample_medians = [np.median(X.sample(len(X), replace=True)["Impressions"]) for i in range(b)]
error = np.mean(sample_medians) - true_median
variances.append(np.std(sample_medians) ** 2)
errors.append(error)

然后我可视化了错误方差:

fig, ax1 = plt.subplots()

color = 'tab:red'
ax1.set_xlabel('Number of Bootstrap Samples (B)')
ax1.set_ylabel('Bootstrap Estimate Error', color=color)
ax1.plot(errors, color=color, alpha=0.7)
ax1.tick_params(axis='y', labelcolor=color)

ax2 = ax1.twinx()

color = 'tab:blue'
ax2.set_ylabel('Bootstrap Estimate Variance', color=color)
ax2.plot(variances, color=color, alpha=0.7)
ax2.tick_params(axis='y', labelcolor=color)

fig.tight_layout()
plt.title("Relationship Between Bootstrap Error, Variance \nand Number of Bootstrap Iterations")
plt.show()

这是该图的输出: enter image description here

您可以看到,误差和方差都随着 B 的增加而减小。我试图找到某种数学理由 - 有没有办法导出或证明为什么当 B 增加时 Bootstrap 估计的方差会减小?

最佳答案

我认为您看到的是中心极限定理。当循环开始时,具有替换的总体中的样本数量很小,并且中位数的平均值(您称之为误差)并不代表达到真实的总体中位数。当生成更多样本时,中位数的均值将渐近地收敛到真实中位数。当向真实均值收敛时,该分布的样本距离不够远,不足以产生较大的方差,并且也达到了收敛。

这澄清了吗?如果没有,请详细说明您在绘制它们时期望看到的内容,我们可以讨论如何实现这一目标。

关于python - 自举估计方差为何减少的数学解释,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56102520/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com