gpt4 book ai didi

python - 使用高斯混合进行异常值检测

转载 作者:太空宇宙 更新时间:2023-11-04 00:23:48 25 4
gpt4 key购买 nike

在一个 5000 x 17 的数组中,我的 17 个特征中的每一个都有 5000 个数据点。我正在尝试使用高斯混合找到每个特征的离群值,但我对以下内容相当困惑:1)我应该为我的 GaussiasnMixture 使用多少个组件? 2) 我应该将 GaussianMixture 直接放在 5000 x 17 的阵列上,还是分别放在每个特征列上,从而产生 17 个 GaussianMixture 模型?

clf = mixture.GaussianMixture(n_components=1, covariance_type='full')
clf.fit(full_feature_array)

clf = mixture.GaussianMixture(n_components=17, covariance_type='full')
clf.fit(full_feature_array)

for feature in range(0, full_feature_matrix):
clf[feature] = mixture.GaussianMixture(n_components=1, covariance_type='full')
clf.fit(full_feature_array[:,feature)

最佳答案

选择组件数量以使用高斯混合模型对分布建模的任务是模型选择的一个实例。这不是那么简单,存在许多方法。可以在这里找到一个很好的总结 https://en.m.wikipedia.org/wiki/Model_selection .最简单和最广泛使用的方法之一是执行交叉验证。

通常异常值可以确定为属于具有最大方差的一个或多个组件的异常值。您可以将此策略称为无监督方法,但仍然很难确定截止方差应该是多少。更好的方法(如果适用)是一种监督方法,您可以使用无异常值的数据(通过手动删除异常值)来训练 GMM。然后,您可以使用它来将异常值分类为可能性得分特别低的异常值。使用监督方法进行此操作的第二种方法是训练两个 GMM(一个用于异常值,一个用于使用模型选择的异常值),然后对新数据执行两类分类。关于你关于训练单变量与多变量 GMM 的问题 - 很难说,但为了异常值检测的目的,单变量 GMM(或等效的具有对角协方差矩阵的多变量 GMM)可能就足够了,并且与一般多变量 GMM 相比需要训练更少的参数,所以我会从那开始。

关于python - 使用高斯混合进行异常值检测,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48156847/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com