作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
在我的数据中,有数千万个二进制属性,但只有其中一些是有信息的,大多数都是零。
格式如下:
data attribute1 attribute2 attribute3 attribute4 .........
A 0 1 0 1 .........
B 1 0 1 0 .........
C 1 1 0 1 .........
D 1 1 0 0 .........
对此进行聚类的明智方法是什么?我知道 K 均值聚类。但我认为它不适合这种情况。因为二进制值使距离变得不那么明显。它将遭受高维诅咒。Eeve 如果我基于这几个信息属性进行聚类,它仍然是许多属性。
我认为决策树很适合对这些数据进行聚类。但这是一个分类算法!
我能做什么?
最佳答案
您是否考虑过频繁项集挖掘?
K-means 绝对是一个坏主意,但是当使用适当的距离函数(例如 jaccard、hamming、dice 等)时,层次聚类可能会起作用
无论如何,什么是集群?算法的选择需要适合您想要查找的集群类型。对于二进制数据,基于质心的方法(例如 k-means)没有意义,因为质心的意义不大。
如果数据是“购物车”类型的信息,请考虑使用频繁项集挖掘,因为它允许发现重叠子集。
关于machine-learning - 如何对具有离散二元属性的数据进行聚类?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20416459/
我是一名优秀的程序员,十分优秀!