gpt4 book ai didi

algorithm - 分布式互相关矩阵计算

转载 作者:塔克拉玛干 更新时间:2023-11-03 02:30:36 26 4
gpt4 key购买 nike

如何可能以分布式方式计算大型(>10TB)数据集的 PIL 逊互相关矩阵?任何有效的分布式算法建议将不胜感激。

更新:我看了apache spark mlib相关的实现

Pearson Computaation:
/home/d066537/codespark/spark/mllib/src/main/scala/org/apache/spark/mllib/stat/correlation/Correlation.scala
Covariance Computation:
/home/d066537/codespark/spark/mllib/src/main/scala/org/apache/spark/mllib/linalg/distributed/RowMatrix.scala

但对我来说,所有计算似乎都发生在一个节点上,并不是真正意义上的分布式。

请在这里放一些光。我还尝试在 3 节点 spark 集群上执行它,下面是屏幕截图:

Entire Computation timeline One the task details

正如您从第二张图片中看到的那样,数据在一个节点上提取,然后进行计算。我就在这里吗?

最佳答案

首先,看看 this看看事情是否进展顺利。然后您可以引用这些实现中的任何一个:MPI/OpenMP:AgomezlMeismyles , MapReduce: VangjeeSeawolf42 .阅读 this 也很有趣在你继续之前。另一方面,James's thesis如果您有兴趣计算对异常值具有鲁棒性的相关性,可以提供一些指导。

关于algorithm - 分布式互相关矩阵计算,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42304059/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com