gpt4 book ai didi

algorithm - 可理解的聚类

转载 作者:塔克拉玛干 更新时间:2023-11-03 02:23:25 26 4
gpt4 key购买 nike

我有一个数据集。该集合的每个元素都由数值变量和分类变量组成。分类变量是名义变量和顺序变量。这个数据集中有一些自然结构。通常,专家会使用他们的“专业知识”对像我这样的数据集进行聚类,但我想自动化这个聚类过程。

大多数聚类算法使用对象之间的距离(欧几里德、马氏等)将它们分组到聚类中。但是很难为混合数据类型找到一些合理的指标,即我们找不到“玻璃”和“钢铁”之间的距离。所以我得出结论,我必须使用条件概率 P(feature = 'something' | Class) 和一些依赖于它们的效用函数。这对于分类变量是合理的,并且假设它们是正态分布的,它也适用于数值变量。

所以我很清楚像 K-means 这样的算法不会产生好的结果。

这次我尝试使用COBWEB算法,它完全符合我使用条件概率的想法。但我遇到了另一个障碍:聚类的结果真的很难解释,如果不是不可能的话。因此,我想得到一些类似描述每个集群的规则集(例如,if feature1 = 'a' and feature2 in [30, 60],它是 cluster1),比如决策树分类。

那么,我的问题是:

是否存在适用于混合数据类型并生成可理解(且对人类合理)的集群描述的现有聚类算法。

附加信息:

据我所知,我的任务是在概念聚类领域。由于研究领域的原因,我无法按照建议定义相似度函数(它是整个项目的最终目标)——它在形式化方面非常复杂和无情。据我所知,最合理的方法是在 COBWEB 中使用的方法,但我不确定如何调整它,所以我可以得到一个难以理解的集群描述。

决策树

正如建议的那样,我尝试在聚类输出上训练决策树,从而将聚类描述为一组规则。但不幸的是,对这些规则的解释几乎与原始聚类输出一样困难。首先,来自根节点的一些第一级规则确实有意义:更靠近叶子 - 我们的意义更小。其次,这些规则不符合任何专家知识。

因此,我得出结论,聚类是一个黑盒子,不值得尝试解释其结果。

还有

我有一个有趣的想法,以某种方式修改“回归决策树”算法:而不是计算组内方差计算 category utility function并将其用作拆分标准。因此,我们应该有一个开箱即用的带有叶簇和簇描述的决策树。但我没有尝试这样做,我不确定准确性和其他一切。

最佳答案

对于大多数算法,您将需要定义相似度。它不需要是适当的距离函数(例如满足三角不等式)。

K 均值特别糟糕,因为它还需要计算均值。因此,如果您无法计算均值,或者使用与欧几里得不同的距离函数,最好远离它。

但是,请考虑定义一个距离函数来获取您的相似性领域知识。它可以由其他距离函数组成,假设您使用欧几里得距离的调和平均值(可能用一些比例因子加权)和类别相似度函数。

一旦你有了一个不错的相似度函数,一大堆算法就可以用了。例如DBSCAN (Wikipedia)OPTICS (Wikipedia) .您可能对 ELKI 感兴趣,他们有一个 Tutorial on writing custom distance functions .

解释是另一回事。 不幸的是,很少有聚类算法会给您对他们发现的内容进行人类可读的解释。他们可能会给你一些东西,比如代表(例如 k-means 中集群的平均值),但仅此而已。但是当然,接下来您可以在聚类输出上训练决策树,并尝试解释从聚类中学习到的决策树。因为关于决策树的一个非常好的特性是它们在某种程度上是人类可以理解的。但是就像支持向量机不会给你解释一样,大多数(如果不是全部)聚类算法也不会这样做,抱歉,除非你做这种后处理。此外,它实际上适用于任何聚类算法,如果您想比较多种算法,这是一个很好的特性。

去年有一篇相关的刊物。它有点晦涩和实验性(在 ECML-PKDD 的研讨会上),并且要求数据集以排名的形式具有相当广泛的基本事实。在示例中,他们使用了颜色相似度排名和一些标签。关键思想是分析集群并使用给定的基本事实找到最佳解释。他们试图用它来例如。说“发现的这个集群主要基于这种特殊的绿色阴影,所以它不是很有趣,但另一个集群不能很好地解释,你需要更仔细地调查它——也许算法发现了一些新的 这里”。但这是非常实验性的(研讨会是针对正在进行的研究类型)。您可能能够使用它,只需将您的特征用作基本事实。然后它应该检测是否一个集群可以很容易地用诸如“attribute5 is approx. 0.4 with low variance”之类的东西来解释。但它不会强行做出这样的解释!

关于algorithm - 可理解的聚类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12155068/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com