memory-management mpi c numerical-methods

高斯消除的内存管理

发布于 2024-11-04 06:35:41 字数 458 浏览 1 评论 0原文

矩阵在处理器 0 中创建并分散到其他处理器。矩阵是对称稠密矩阵。这就是它在处理器 0 中初始化的原因。

矩阵以这种方式创建：

A=malloc(sizeof(double)*N*N);
for (i=0; i<N; i++)
    for(j=0; j<N; j++)
     A(i,j)=rand()%10; // The code will be changed.

A(i,j) 定义为：

#define A(i,j) A[i*N+j]

N 必须为 100,000 才能测试算法。

这里的问题是：如果 N=100,000 那么所需的内存大约是 76GB。您建议如何存储 A 矩阵？

PS：当 N<20.000 并且集群是受干扰的内存系统（每个处理器 2GB RAM）时，算法运行得很好

原文

A matrix is created in processor 0 and scattered to other processors. A matrix is a symmetric dense matrix. That's why it is initialized in processor 0.

A matrix is created in this way:

A=malloc(sizeof(double)*N*N);
for (i=0; i<N; i++)
    for(j=0; j<N; j++)
     A(i,j)=rand()%10; // The code will be changed.

A(i,j) is defined as:

#define A(i,j) A[i*N+j]

and N has to be 100,000 to test the algorithm.

The problem here is: if N=100,000 then the memory needed is approximately 76GB. What do you suggest to store the A matrix?

PS: Algorithm works very well when N<20.000 and the cluster is a distrubed memory system(2GB RAM per processor)

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

笑看君怀她人 2024-11-11 06:35:41

如果您这样做（如评论中所述）是为了进行缩放测试，那么 Oli Charlesworth 是完全正确的；你所做的任何事情都会使这成为苹果与橘子的比较，因为你的节点没有 76GB 可用。这很好；使用 MPI 的重要原因之一是解决无法适应单个节点的问题。但是，如果试图将 76GB 的数据硬塞到一个处理器上，那么您所做的比较就没有任何意义。正如 Oli Charlesworth 和 caf 所提到的，通过各种方法，您可以使用磁盘而不是 RAM，但是您的 1 处理器答案将无法直接与从大量节点获得的 RAM 适配数进行比较，所以你需要做很多工作才能得到一个实际上没有任何意义的数字。

如果您希望在此类问题上获得扩展结果，您可以从适合该问题的最少节点数开始，并在越来越多的处理器上获取数据，或者您可以弱缩放，而不是强扩展测试 - 在扩展处理器数量的同时保持每个处理器的工作量不变，而不是总工作量恒定。

顺便说一句，无论您如何进行测量，如果正如 Oli Charlesworth 所建议的那样，让每个处理器生成自己的数据，而不是通过让 0 级生成矩阵然后再进行串行瓶颈，您最终会得到更好的结果所有的加工商都会收到他们的零件。

回复收藏 0 原文