gpt4 book ai didi

r - 将树状图切割成 R 中最小簇大小的 n 棵树

转载 作者:行者123 更新时间:2023-12-04 14:45:55 25 4
gpt4 key购买 nike

我正在尝试使用分层次聚类(特别是 hclust )将数据集聚类为 10 个成员大小不超过 100 的组,并且没有一个组超过总人口的 40%。我目前知道的唯一方法就是反复使用cut()并不断选择较低的 h 水平,直到我对削减的分散感到满意为止。然而,这迫使我返回并重新聚集我修剪的组以将它们聚合为 100 个成员组,这可能非常耗时。

我已经尝试过 dynamicTreeCut包,但无法弄清楚如何输入这些(相对简单的)限制。我正在使用 deepSplit作为指定分组数量的方式,但根据文档,这将最大数量限制为 4。对于下面的练习,我要做的就是将集群分成 5 个组,每组 3 个或更多个人(我我可以自己处理最大尺寸限制,但如果您也想尝试解决这个问题,那会很有帮助!)。

这是我的示例,使用 Orange数据集。

library(dynamicTreeCut)
library(reshape2)

##creating 14 individuals from Orange's original 5
Orange1<-Orange
Orange1$Tree<-as.numeric(as.character(Orange1$Tree))
Orange2<-Orange1
Orange3<-Orange1
Orange2$Tree=Orange2$Tree+6
Orange3$Tree=Orange3$Tree+11
combOr<-rbind(Orange1, Orange2[1:28,], Orange3)


####casting the data to make a correlation matrix, and then running
#### a hierarchical cluster
castOrange<-dcast(combOr, age~Tree, mean, fill=0)
castOrange[,16]<-c(1,34,5,35,34,35,21)
castOrange[,17]<-c(1,34,5,35,34,35,21)
orangeCorr<-cor(castOrange[, -1])
orangeClust<-hclust(dist(orangeCorr))

###running the dynamic tree cut
dynamicCut<-cutreeDynamic(orangeClust, minClusterSize=3, method="tree", deepSplit=4)

dynamicCut
[1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0

如您所见,它只指定了两个集群。对于我的练习,我想避免使用明确的高度项来砍伐树木,因为我想要一个 k取而代之的是树的数量。

最佳答案

1- 找出最合适的相异性度量(例如, "euclidean""maximum""manhattan""canberra""binary""minkowski" , 6 | 7914|, 7914|, 7914| 和 |19 、 "ward""single""complete""average""mcquitty" )基于数据的性质和聚类的目标。见 "median""centroid"更多细节。

2- 在开始切割步骤之前绘制树状图。见 ?dist更多细节。

3-在?hclust中使用混合自适应树切割方法打包,并调整形状参数( ?hclustdynamicTreeCut/maxCoreScatterminGap )。参见 Langfelder 等人。 2009 ( http://labs.genetics.ucla.edu/horvath/CoexpressionNetwork/BranchCutting/Supplement.pdf )。

对于你的例子,

1- 更改 maxAbsCoreScatter和/或 minAbsGap适当的方法,

orangeClust <- hclust(dist(orangeCorr, method="euclidean"), method="complete")

2- 绘制树状图,
plot(orangeClust)

3-使用混合树切割方法并调整形状参数,
dynamicCut <- cutreeDynamic(orangeClust, minClusterSize=3, method="hybrid", distM=as.matrix(dist(orangeCorr, method="euclidean")), deepSplit=4, maxCoreScatter=NULL, minGap=NULL, maxAbsCoreScatter=NULL, minAbsGap=NULL)
dynamicCut
..cutHeight not given, setting it to 1.8 ===> 99% of the (truncated) height range in dendro.
..done.
2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0

作为调整形状参数的指南,默认值为
deepSplit=0: maxCoreScatter = 0.64 & minGap = (1 - maxCoreScatter) * 3/4
deepSplit=1: maxCoreScatter = 0.73 & minGap = (1 - maxCoreScatter) * 3/4
deepSplit=2: maxCoreScatter = 0.82 & minGap = (1 - maxCoreScatter) * 3/4
deepSplit=3: maxCoreScatter = 0.91 & minGap = (1 - maxCoreScatter) * 3/4
deepSplit=4: maxCoreScatter = 0.95 & minGap = (1 - maxCoreScatter) * 3/4

如您所见, "euclidean""complete"应该在 maxCoreScatter 之间和 minGap , 并增加 0 (减少 1 )增加簇的数量(较小的尺寸)。 Langfelder 等人描述了这些参数的含义。 2009 年。

例如,要获得更多更小的集群
maxCoreScatter <- 0.99
minGap <- (1 - maxCoreScatter) * 3/4
dynamicCut <- cutreeDynamic(orangeClust, minClusterSize=3, method="hybrid", distM=as.matrix(dist(orangeCorr, method="euclidean")), deepSplit=4, maxCoreScatter=maxCoreScatter, minGap=minGap, maxAbsCoreScatter=NULL, minAbsGap=NULL)
dynamicCut
..cutHeight not given, setting it to 1.8 ===> 99% of the (truncated) height range in dendro.
..done.
2 3 2 2 2 3 3 2 2 3 3 2 2 2 1 2 1 1 1 2 2 1 1 2 2 1 1 1 0 0

最后,您的聚类约束(大小、高度、数量等)应该是合理且可解释的,并且生成的聚类应该与数据一致。这将引导您进入聚类验证和解释的重要步骤。

祝你好运!

关于r - 将树状图切割成 R 中最小簇大小的 n 棵树,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19734381/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com