当前位置：文江博客话题详情

Matlab gpu cuda

Matlab 和 GPU/CUDA 编程

发布于 2024-12-04 06:10:51 字数 746 浏览 3 评论 0原文

我需要对同一数据集运行多次独立分析。具体来说，我需要运行大量 100 glm（广义线性模型）分析，并考虑利用我的显卡 (GTX580)。

由于我可以使用 Matlab 和并行计算工具箱（而且我不擅长 C++），所以我决定尝试一下。

我知道单个 GLM 对于并行计算并不理想，但由于我需要并行运行 100-200 个，我认为使用 parfor 可能是一个解决方案。

我的问题是我不清楚我应该遵循哪种方法。我编写了 matlab 函数 glmfit 的 gpuArray 版本，但使用 parfor 与标准“for”循环相比没有任何优势。

这和matlabpool设置有关系吗？我什至不清楚如何设置它来“查看”GPU 卡。如果我没记错的话，默认情况下，它设置为 CPU 中的核心数（在我的例子中为 4）。我的方法完全错误吗？

任何建议将不胜感激。

编辑

谢谢。我知道 GPUmat 和 Jacket，我可以开始用 C 编写而不需要太多的努力，但我正在为一个每个人都使用 Matlab 或 R 的部门测试 GPU 计算的可能性。最终目标是基于 C2050 的集群和 Matlab 分发服务器（或者至少这是第一个项目）。阅读 Mathworks 的 AD 后，我的印象是，即使没有 C 技能，并行计算也是可能的。不可能要求我部门的研究人员学习 C，所以我猜测 GPUmat 和 Jacket 是更好的解决方案，即使限制很大并且不支持像 glm 这样的几个常用例程。

它们如何与集群连接？他们是否使用某种工作分配系统？

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（2）

╰◇生如夏花灿烂 2024-12-11 06:10:51

我建议您尝试 GPUMat（免费）或 AccelerEyes Jacket（购买，但可以免费试用）而不是并行计算工具箱。该工具箱没有那么多功能。

为了获得最佳性能，您可能需要自己学习一些 C（不需要 C++）和原始 CUDA 代码。许多高级工具在管理内存传输方面可能不够智能（您可能会因为在 PCI-E 总线上不必要地重新整理数据而失去所有计算优势）。

回复收藏 0 原文

终止放荡 2024-12-11 06:10:51

Parfor 将帮助您利用多个 GPU，但不能帮助您利用单个 GPU。问题是单个 GPU 一次只能做一件事，因此单个 GPU 上的 parfor 或单个 GPU 上的 for 将达到完全相同的效果（如您所见）。

Jacket往往效率更高，因为它可以组合多个操作并更有效地运行它们并且具有更多功能，但大多数部门已经拥有并行计算工具箱而不是Jacket，因此这可能是一个问题。您可以尝试演示来检查。

没有 gpumat 经验。

并行计算工具箱越来越好，你需要的是一些大型矩阵运算。 GPU 擅长多次执行同一操作，因此您需要以某种方式将代码组合到一个操作中，或者使每个操作足够大。我们谈论的是至少需要大约 10000 个并行的东西，尽管它不是一组 1e4 矩阵，而是一个至少包含 1e4 个元素的大矩阵。

我确实发现，使用并行计算工具箱，您仍然需要相当多的内联 CUDA 代码才能有效（它仍然非常有限）。它确实更好地允许您内联内核并将 matlab 代码转换为内核，但

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

0 文章

0 评论

23 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

胡图图

文章 0 评论 0

zt006

文章 0 评论 0

z祗昰~

文章 0 评论 0

冰葑

文章 0 评论 0

野の

文章 0 评论 0

天空

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文