作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我陷入了这个奇怪的高维聚类问题。这里打个比方来解释。
假设有 2^10 个人进入一片森林,我们想知道那里生活着多少种鸟类。
这些鸟在 128 个维度上彼此不同,并且所有维度都是二进制的。即:一只鸟要么有大喙,要么有小喙,要么有蓝色的翅膀,要么没有,等等。(每种鸟类可以用 128 位来表示)
我的问题是,当这些人离开森林时,我们只有他们的观察结果的集合:
“我看到 8 只鸟,3 只有蓝色的喙(5 只没有),4 只有蓝色的翅膀(4 只没有),1 只有大喙(7 只没有),等等”。他们不报告他们观察到的个体特征,而只报告他们观察到的总体特征。
还有两个额外的约束:
i) 所有物种至少被观察一次;ii) 物种数量少 (~2^5)。
当然,我们可以汇总它们的总和(在 3000 次观察中,有 357 只鸟有大喙,等等)。但是集群呢?
所以问题是:
我们怎样才能知道那里生活着多少物种?
如何找出每个物种的特征?
最佳答案
由于 2^128 = 340282366920938463463374607431768211456
,您需要相当大的样本量才能得出有效结论。观察到的每只鸟很容易都是独一无二的。
关于data-mining - 来自观察集合的高维聚类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13925095/
我是一名优秀的程序员,十分优秀!