gpt4 book ai didi

python - 如何检查样本是否具有与 Python 中的总体相同的概率分布?

转载 作者:行者123 更新时间:2023-12-05 02:46:45 24 4
gpt4 key购买 nike

我有一个包含数百万行的 Dataframe,为了创建一个模型,我使用 dataset.sample(int(len(dataset)/5)) 从这个数据集中随机抽取了一个样本,它返回来自对象轴的项目的随机样本。现在我想验证样本是否不从总体中失去统计显着性,即确保样本的每个特征(列)的概率分布对于整个数据集(总体)具有相同的概率分布。我有数字和分类特征。如何在 Python 中检查特征是否具有相同的概率分布?

最佳答案

对于连续变量,您可以使用 Kolmogorov-Smirnov 统计量。这将测试两个样本是否来自同一分布。

scipy 中的用法:

scipy.stats.ks_2samp(data1, data2, alternative='two-sided', mode='auto')

https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ks_2samp.html

或者,如果您已经知道分布,则可以使用 KS 测试,该测试针对给定分布测试您的数据:

https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.kstest.html#scipy.stats.kstest

关于python - 如何检查样本是否具有与 Python 中的总体相同的概率分布?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/65353833/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com