gpt4 book ai didi

python - 将数据集与 Python 中的非标准概率分布进行比较

转载 作者:行者123 更新时间:2023-12-02 09:24:37 27 4
gpt4 key购买 nike

我有一些大型数据集,用于创建非标准概率分布(使用 numpy.histogram 来对数据进行分类,并使用 scipy.interpolate 来创建非标准概率分布)的 interp1d 函数来对结果曲线进行插值)。我还创建了一个函数,可以使用 scipy.stats 包从这些自定义 PDF 中进行采样。

我的目标是了解样本大小的变化如何改变它们所来自的分布以及其他 PDF 的拟合优度,并确定需要多大的样本才能完全确定它是否来 self 的一份或另一份自定义 PDF。

为此,我发现我需要使用某种非参数统计分析,即查看一组数据是否是从提供的概率分布中提取的。经过一些研究,Anderson-Darling 测试似乎非常适合这种情况,但是它在 python 中的实现(scipy.stats.anderson)似乎只适用于预设的概率分布,例如正态分布、指数等

所以我的问题是:给定我的许多非标准 PDF(或必要时的 CDF,或者我用来创建它们的数据),计算一组示例数据与 Python 中每个模型的拟合程度的最佳方法是什么?如果是 Anderson-Darling 测试,是否有某种方法可以定义自定义 PDF 来进行测试?

谢谢。非常感谢任何帮助。

最佳答案

(1) “它是否来自发行版 X”通常是一个可以先验回答(如果有的话)的问题;对它的统计检验只会告诉你“我有一个大样本/不是一个大样本”,这可能是真的,但不太有用。如果您尝试将新数据分类为一种分布或另一种分布,我的建议是将其视为分类问题并使用您构建的 pdf 来计算 p(class | data) = p(data | class) p(class)/p(data) 其中关键部分 p(data | class) 是您的直方图。也许你可以更多地谈论你的问题领域。

(2) 您可以应用 Kolmogorov-Smirnov 检验,但这确实毫无意义,如上所述。

关于python - 将数据集与 Python 中的非标准概率分布进行比较,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30459398/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com