algorithm - 分布式互相关矩阵计算-6ren

algorithm - 分布式互相关矩阵计算

转载作者：塔克拉玛干更新时间：2023-11-03 02:30:36

如何可能以分布式方式计算大型(>10TB)数据集的 PIL 逊互相关矩阵？任何有效的分布式算法建议将不胜感激。

更新:我看了apache spark mlib相关的实现

Pearson Computaation:
/home/d066537/codespark/spark/mllib/src/main/scala/org/apache/spark/mllib/stat/correlation/Correlation.scala
Covariance Computation:
/home/d066537/codespark/spark/mllib/src/main/scala/org/apache/spark/mllib/linalg/distributed/RowMatrix.scala

但对我来说，所有计算似乎都发生在一个节点上，并不是真正意义上的分布式。

请在这里放一些光。我还尝试在 3 节点 spark 集群上执行它，下面是屏幕截图:

正如您从第二张图片中看到的那样，数据在一个节点上提取，然后进行计算。我就在这里吗？

最佳答案

首先，看看 this看看事情是否进展顺利。然后您可以引用这些实现中的任何一个:MPI/OpenMP:Agomezl或 Meismyles , MapReduce: Vangjee或 Seawolf42 .阅读 this 也很有趣在你继续之前。另一方面，James's thesis如果您有兴趣计算对异常值具有鲁棒性的相关性，可以提供一些指导。

关于algorithm - 分布式互相关矩阵计算，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42304059/