gpt4 book ai didi

r - 矩阵非常大的K均值

转载 作者:行者123 更新时间:2023-12-04 04:07:44 27 4
gpt4 key购买 nike

我必须在一个非常大的矩阵上执行k均值聚类(大约300.000x100.000的值,该值大于100Gb)。我想知道是否可以使用R软件执行此操作或weka。
我的计算机是具有8Gb内存和数百Gb可用空间的多处理器。

我有足够的空间来进行计算,但是R加载这样的矩阵似乎是个问题(我不认为使用bigmemory包会帮助我,如果没有足够的空间,大矩阵会自动使用我的所有RAM,然后自动使用我的交换文件)。

所以我的问题是:我应该使用什么软件(最终与其他软件包或自定义设置相关联)。

谢谢你帮我

注意:我使用linux。

最佳答案

一定是K均值吗?另一种可能的方法是先将数据转换为网络,然后再应用图聚类。我是MCL(一种在生物信息学中经常使用的算法)的作者。链接到的实现应轻松扩展到具有数百万个节点的网络-假设您具有100K属性,您的示例将有300K节点。使用这种方法,数据将自然地在数据转换步骤中被修剪-并且该步骤很可能会成为瓶颈。您如何计算两个向量之间的距离?在我处理过的应用程序中,我使用了Pearson或Spearman相关性,并且MCL随附了用于对大规模数据进行有效计算的软件(它可以利用多个CPU和多个计算机)。

数据大小仍然存在问题,因为大多数聚类算法将要求您至少至少一次执行所有成对比较。您的数据真的存储为巨型矩阵吗?输入中有很多零吗?另外,您有舍弃较小元素的方法吗?您是否可以使用一台以上的计算机来分发这些计算?

关于r - 矩阵非常大的K均值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6372397/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com