gpt4 book ai didi

r - hclust 大小限制?

转载 作者:行者123 更新时间:2023-12-01 23:15:01 24 4
gpt4 key购买 nike

我是 R 的新手。我正在尝试对大约 5 万个项目运行 hclust()。我有 10 列要比较和 50K 行数据。当我尝试分配距离矩阵时,我得到:“无法分配 5GB 的向量”。

这个有大小限制吗?如果是这样,我该如何着手对这么大的东西进行集群处理?

编辑

我最终增加了 max.limit 并将机器的内存增加到 8GB,这似乎已经解决了它。

最佳答案

经典的层次聚类方法在运行时是O(n^3),在内存复杂度上是O(n^2)。所以是的,它们对大型数据集的扩展性非常差。显然,任何需要具体化距离矩阵的东西都在 O(n^2) 或更糟的情况下。

请注意,有一些层次聚类的特殊化,例如 SLINK 和 CLINK,它们在 O(n^2) 中运行,并且根据实现的不同,可能也只需要 O(n) 内存。

您可能想研究更现代的聚类算法。在 O(n log n) 或更短时间内运行的任何东西都应该适合您。有很多很好的理由使用层次聚类:通常它对噪声相当敏感(即它真的不知道如何处理异常值)并且结果很难解释大数据集(树状图很好,但只适用于小数据集)。

关于r - hclust 大小限制?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13077476/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com