gpt4 book ai didi

matlab - 期望最大化问题——如何在数据中找到最佳数量的高斯分布

转载 作者:太空宇宙 更新时间:2023-11-03 19:51:05 25 4
gpt4 key购买 nike

Plot of 2 - Dimensional data

在应用期望最大化算法之前,是否有任何算法或技巧来确定应在一组数据中识别的高斯数量?

例如,在上图所示的 2 维数据图中,当我应用期望最大化算法时,我尝试将 4 个高斯分布拟合到数据中,我将获得以下结果。

enter image description here

但是,如果我不知道数据中的高斯数量怎么办?是否可以应用任何算法或技巧来找出此详细信息?

最佳答案

这可能有点重读,因为其他人已经链接了实际簇数确定的 wiki 文章,但我发现该文章有点过于密集,所以我想我会提供一个简短、直观的答案:

基本上,对于数据集中的聚类数量没有普遍的“正确”答案——聚类越少,描述长度越小,但方差越大,在所有非平凡的数据集中,方差不会完全消失,除非你对每个点都有一个高斯分布,这使得聚类变得无用(这是一种更普遍的现象,称为“无偏见学习的徒劳性”:一个学习者不做先验假设目标概念的身份没有对任何看不见的实例进行分类的合理基础)。

因此,您基本上必须选择数据集的一些特征,以通过聚类数量最大化(有关某些示例特征的归纳偏差,请参见 wiki article)

在其他不幸的消息中,在所有这些情况下,发现集群的数量是 known to be NP-hard , 所以您可以期望的最好的方法是一种好的启发式方法。

关于matlab - 期望最大化问题——如何在数据中找到最佳数量的高斯分布,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6525694/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com