gpt4 book ai didi

algorithm - 何时停止凝聚层次聚类 - 停止标准

转载 作者:塔克拉玛干 更新时间:2023-11-03 05:57:21 24 4
gpt4 key购买 nike

我正在为我的应用程序编写每个功能,所以我没有使用为您做所有事情的工具

一直在寻找解决方案,何时削减我的凝聚层次聚类

我如何聚类?

我在 c# 4.5.2 中编写了应用程序

到目前为止,我使用的是标准层次结构,它使用 Euclidean_Distance 来计算文档对之间的距离

它还使用UPGMA计算簇之间的距离来决定合并哪些

我还编写了 Rand Index 和 F Measure 代码来测试我手动标记的数据集是否成功

但是问题是什么时候停止合并更多的集群

如果没有真实的数据示例或很好解释的伪代码,我真的不擅长理解数学方程式

到处都是数学方程式,但没有现实生活中的例子

所以寻找你的答案。例如,它在很多地方都有写贝叶斯信息准则(BIC)是一个很好的解决方案,但我不知道如何将它应用到我的软件中

我还有其他距离或相似度指标,例如余弦相似度或索伦森骰子距离等

在 stackexchange 或 stackoverflow 上有很多关于这个的问题,但所有的答案都是使用工具

像 matlab 或 R 等

最佳答案

尝试计算每个特定聚类的适合程度的某种度量 - 例如,距聚类中心的距离总和或平方误差总和。您应该会发现,随着聚类数量的增加,此错误会减少 - 更容易适应更多的聚类,并且会随着聚类数量的减少而增加。

现在画一个图,寻找一个“弯头”,在这个弯头处,随着聚类数量的减少,误差开始变得更快。然后,您可以假设错误开始快速增加之前的最小簇数是数据中的真实簇数。

参见 Cluster analysis in R: determine the optimal number of clusters 中的图表示例就在文本下方“我们可能会得出结论,此方法将指示 4 个聚类:”

关于algorithm - 何时停止凝聚层次聚类 - 停止标准,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32407887/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com