作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个包含数百万行的 Dataframe,为了创建一个模型,我使用 dataset.sample(int(len(dataset)/5))
从这个数据集中随机抽取了一个样本,它返回来自对象轴的项目的随机样本。现在我想验证样本是否不从总体中失去统计显着性,即确保样本的每个特征(列)的概率分布对于整个数据集(总体)具有相同的概率分布。我有数字和分类特征。如何在 Python 中检查特征是否具有相同的概率分布?
最佳答案
对于连续变量,您可以使用 Kolmogorov-Smirnov 统计量。这将测试两个样本是否来自同一分布。
scipy
中的用法:
scipy.stats.ks_2samp(data1, data2, alternative='two-sided', mode='auto')
https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ks_2samp.html
或者,如果您已经知道分布,则可以使用 KS 测试,该测试针对给定分布测试您的数据:
https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.kstest.html#scipy.stats.kstest
关于python - 如何检查样本是否具有与 Python 中的总体相同的概率分布?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/65353833/
在数据仓库上工作,对这个问题的一个合适的类比是我们有医疗保健从业者。医疗保健从业者具有多种专业属性,并且在多个团队和多个临床领域工作。 例如,您可能有一名护士作为救援人员/承包商/银行工作人员在多个团
我是一名优秀的程序员,十分优秀!