gpt4 book ai didi

c - 高斯消除的内存管理

转载 作者:太空宇宙 更新时间:2023-11-04 06:07:58 25 4
gpt4 key购买 nike

矩阵在处理器 0 中创建并分散到其他处理器。矩阵是对称的稠密矩阵。这就是它在处理器 0 中初始化的原因。

矩阵是这样创建的:

A=malloc(sizeof(double)*N*N);
for (i=0; i<N; i++)
for(j=0; j<N; j++)
A(i,j)=rand()%10; // The code will be changed.

A(i,j) 定义为:

#define A(i,j) A[i*N+j]

N 必须为 100,000 才能测试算法。

这里的问题是:如果 N=100,000,那么需要的内存大约是 76GB。您建议如何存储 A 矩阵?

PS:当 N<20.000 且集群是分布式内存系统(每个处理器 2GB RAM)时,算法运行良好

最佳答案

如果您按照评论中的说明这样做是为了进行缩放测试,那么 Oli Charlesworth 是完全正确的;你所做的任何事情都会使这成为一个苹果与橘子的比较,因为你的节点没有 76GB 可用。哪个好;使用 MPI 的重要原因之一是解决无法在一个节点上解决的问题。但是,如果试图将 76GB 的数据硬塞到一个处理器上,那么您所做的比较就没有任何意义。正如 Oli Charlesworth 和 caf 所提到的,通过各种方法,您可以使用磁盘而不是 RAM,但是您的 1 个处理器答案将无法直接与您从大量节点获得的适合 RAM 的数字进行比较,因此,您将需要做大量工作才能获得一个实际上没有任何意义的数字。

如果你想缩放这类问题的结果,你要么从问题确实适合的节点数量最少开始,然后在越来越多的处理器上获取数据,要么你做 weak scaling ,而不是 strong scaling 测试——您在增加处理器数量的同时保持每个处理器的工作量不变,而不是总工作量保持不变。

顺便说一下,无论您如何进行测量,如果正如 Oli Charlesworth 所建议的那样,您让每个处理器生成自己的数据而不是通过让秩 0 生成矩阵来产生串行瓶颈,那么您最终会得到更好的结果然后让所有的处理器接收他们的零件。

关于c - 高斯消除的内存管理,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5851500/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com