gpt4 book ai didi

statistics - Gap 统计的推荐模拟引用数据集数

转载 作者:行者123 更新时间:2023-12-04 13:21:52 26 4
gpt4 key购买 nike

在计算 Tibshirani 的差距统计量时,引用分布中是否有推荐数量的模拟数据集 (B)? B=50? B=100? B=500? B=1000?如果是这样,有什么好的引用资料提到它吗?

最佳答案

如果我们回到最初的出版物 [ Tibshirani, Walther and Hastie, J. R. Statist. Soc. B 63, 411 (2011) ],作者定义了“1-标准误差”规则来确定最佳簇数为最小的k

enter image description here

其中 s_k 是 MC 模拟校正的标准误差

enter image description here

B 份从引用分布中提取的 MC 样本。

在后一个等式中,平方根项允许您估计由于 MC 样本数量引起的标准偏差的校正,我们显然有

enter image description here

例如,对于 B = 10,由于 MC 采样不确定性,标准偏差 s_k 增加了 5%。如果选择B = 100,则增加0.5%。

我想在实际情况下,B = 10 可能足以满足很多应用程序。但这需要根据您的实际数据及其基础集群结构(例如,分离良好的集群与分离较少的集群的数量)对差距统计数据及其标准差进行一些试错评估。

一些有用的引用资料(排名不分先后)

Cross Validated: How should I interpret GAP statistic

The Data Science Lab: Finding the K in K-Means Clustering

Tibshirani, Walther and Hastie, J. R. Statist. Soc. B 63, 411 (2011)

关于statistics - Gap 统计的推荐模拟引用数据集数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51032086/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com