作者热门文章
- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
如何可能以分布式方式计算大型(>10TB)数据集的 PIL 逊互相关矩阵?任何有效的分布式算法建议将不胜感激。
更新:我看了apache spark mlib相关的实现
Pearson Computaation:
/home/d066537/codespark/spark/mllib/src/main/scala/org/apache/spark/mllib/stat/correlation/Correlation.scala
Covariance Computation:
/home/d066537/codespark/spark/mllib/src/main/scala/org/apache/spark/mllib/linalg/distributed/RowMatrix.scala
但对我来说,所有计算似乎都发生在一个节点上,并不是真正意义上的分布式。
请在这里放一些光。我还尝试在 3 节点 spark 集群上执行它,下面是屏幕截图:
正如您从第二张图片中看到的那样,数据在一个节点上提取,然后进行计算。我就在这里吗?
最佳答案
首先,看看 this看看事情是否进展顺利。然后您可以引用这些实现中的任何一个:MPI/OpenMP:Agomezl或 Meismyles , MapReduce: Vangjee或 Seawolf42 .阅读 this 也很有趣在你继续之前。另一方面,James's thesis如果您有兴趣计算对异常值具有鲁棒性的相关性,可以提供一些指导。
关于algorithm - 分布式互相关矩阵计算,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42304059/
我是一名优秀的程序员,十分优秀!