python - 如何检查样本是否具有与 Python 中的总体相同的概率分布？-6ren

python - 如何检查样本是否具有与 Python 中的总体相同的概率分布？

转载作者：行者123 更新时间：2023-12-05 02:46:45

我有一个包含数百万行的 Dataframe，为了创建一个模型，我使用 dataset.sample(int(len(dataset)/5)) 从这个数据集中随机抽取了一个样本，它返回来自对象轴的项目的随机样本。现在我想验证样本是否不从总体中失去统计显着性，即确保样本的每个特征(列)的概率分布对于整个数据集(总体)具有相同的概率分布。我有数字和分类特征。如何在 Python 中检查特征是否具有相同的概率分布？

最佳答案

对于连续变量，您可以使用 Kolmogorov-Smirnov 统计量。这将测试两个样本是否来自同一分布。

scipy 中的用法:

scipy.stats.ks_2samp(data1, data2, alternative='two-sided', mode='auto')

https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ks_2samp.html

或者，如果您已经知道分布，则可以使用 KS 测试，该测试针对给定分布测试您的数据:

https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.kstest.html#scipy.stats.kstest

关于python - 如何检查样本是否具有与 Python 中的总体相同的概率分布？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/65353833/

文章推荐： java - 在Java中将日期转换为带时区的时间戳

文章推荐： delphi - 递归复制目录并在没有用户确认的情况下覆盖所有文件

sql - 带支腿的缓慢变化维度的 SSIS 总体
在数据仓库上工作，对这个问题的一个合适的类比是我们有医疗保健从业者。医疗保健从业者具有多种专业属性，并且在多个团队和多个临床领域工作。例如，您可能有一名护士作为救援人员/承包商/银行工作人员在多个团

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 如何检查样本是否具有与 Python 中的总体相同的概率分布？