学习共享内存、分布式内存和/或 GPU 编程的示例问题和解决方案是什么？

发布于 2024-11-02 16:14:05 字数 452 浏览 4 评论 0原文

我们正在寻找将在任何或所有共享内存、分布式内存和 GPGPU 架构上运行的示例问题和代码。我们使用的参考平台是LittleFe (littlefe.net)，这是一个开放式设计、低成本的教育集群，目前拥有六个双核CPU，每个CPU 都配有nVidia 芯片组。

这些问题和解决方案通过提供工作示例和卷起袖子编码的机会，有助于向任何新手教授并行性。 Stackoverflow 专家具有良好的洞察力，并且可能有一些最爱。

计算曲线下的面积很有趣、简单且易于理解，但肯定有一些方法同样易于表达，并且充满了练习和学习的机会。

使用多种内存架构的混合示例是最理想的，并且反映了并行编程的趋势。

在 LittleFe 上，我们主要使用三个应用程序。第一个是对飞镖上最佳目标的分析，该目标高度并行，通信开销很小。第二个是康威的生命游戏，这是共享边界条件问题的典型。它具有适度的通信开销。第三个是星系形成的 n 体模型，需要大量的通信开销。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

巷子口的你 2024-11-09 16:14:05

CUDA 编程指南包含详细分析矩阵乘法在GPU上的实现。这似乎是学习 GPU 编程的主要“hello world”示例。

此外，CUDA SDK 还包含数十个其他详细解释的 CUDA 和 OpenCL 中 GPU 编程示例。我最喜欢的是碰撞球示例。（数千个球实时碰撞的演示）

更新：

CUDA 示例不再与工具包打包在一起。相反，您可以在 GitHub 上找到它们。

回复收藏 0 原文

老街孤人 2024-11-09 16:14:05

我最喜欢的两个是数值整数和寻找素数。首先，我们在函数 f(x) = 4.0 / (1.0 + x*x) 上编写中点矩形规则。 0 和 1 之间的函数积分给出常数 pi 的近似值，这使得检查答案的正确性变得容易。并行性遍及积分范围（计算矩形面积）。

对于第二个，我们输入一个整数范围，然后识别并保存该范围内的素数。我们通过所有可能的因素对值进行强力划分；如果发现除数不是 1 或数字，则该值为合数。如果找到素数，则对其进行计数并将其存储在共享数组中。并行性正在划分范围，因为 N 的素数测试独立于 M 的测试。在线程之间共享素数存储或收集分布式部分答案需要一些技巧。

这些都是需要解决的非常基本且简单的问题，这使得学生能够专注于并行实现，而不是过多地关注所涉及的计算。

回复收藏 0 原文