gpt4 book ai didi

machine-learning - 如何对具有离散二元属性的数据进行聚类?

转载 作者:行者123 更新时间:2023-11-30 09:57:15 25 4
gpt4 key购买 nike

在我的数据中,有数千万个二进制属性,但只有其中一些是有信息的,大多数都是零。

格式如下:

data  attribute1 attribute2 attribute3 attribute4   .........
A 0 1 0 1 .........
B 1 0 1 0 .........
C 1 1 0 1 .........
D 1 1 0 0 .........

对此进行聚类的明智方法是什么?我知道 K 均值聚类。但我认为它不适合这种情况。因为二进制值使距离变得不那么明显。它将遭受高维诅咒。Eeve 如果我基于这几个信息属性进行聚类,它仍然是许多属性。

我认为决策树很适合对这些数据进行聚类。但这是一个分类算法!

我能做什么?

最佳答案

您是否考虑过频繁项集挖掘

K-means 绝对是一个坏主意,但是当使用适当的距离函数(例如 jaccard、hamming、dice 等)时,层次聚类可能会起作用

无论如何,什么是集群?算法的选择需要适合您想要查找的集群类型。对于二进制数据,基于质心的方法(例如 k-means)没有意义,因为质心的意义不大。

如果数据是“购物车”类型的信息,请考虑使用频繁项集挖掘,因为它允许发现重叠子集。

关于machine-learning - 如何对具有离散二元属性的数据进行聚类?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20416459/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com