当前位置：文江博客话题详情

你成功使用过GPGPU吗？

发布于 2024-07-05 04:24:09 字数 1448 浏览 8 评论 0原文

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

[旋木] 2024-07-12 04:24:09

是的。我已经使用非线性各向异性扩散过滤器实现了CUDA API。

这相当简单，因为它是一个必须在给定输入图像的情况下并行运行的过滤器。我在这方面没有遇到很多困难，因为它只需要一个简单的内核。加速比约为 300 倍。这是我关于 CS 的最后一个项目。该项目可以在此处找到（它是用葡萄牙语写的）。

我尝试编写 Mumford& Shah 分割算法也是如此，但是写起来很痛苦，因为 CUDA 仍处于起步阶段，所以会发生很多奇怪的事情。我什至发现通过在代码 O_O 中添加 if (false){} 可以提高性能。

该分割算法的结果并不好。与 CPU 方法相比，我的性能损失了 20 倍（但是，由于它是 CPU，因此可以采用产生相同结果的不同方法）。这仍然是一项正在进行的工作，但不幸的是我离开了我正在从事的实验室，所以也许有一天我可能会完成它。

回复收藏 0 原文

Oo萌小芽oO 2024-07-12 04:24:09

我一直在使用 ATI 的流 SDK 而不是 Cuda 进行 gpgpu 开发。
您将获得什么样的性能提升取决于很多因素，但最重要的是数字强度。（即计算操作与内存引用的比率。）

BLAS 1 级或 BLAS 2 级函数（例如添加两个向量）仅对每 3 个内存引用执行 1 次数学运算，因此 NI 为 (1/3)。使用 CAL 或 Cuda 的运行速度总是比仅在 CPU 上运行慢。主要原因是数据从 CPU 传输到 GPU 并返回所需的时间。

对于像 FFT 这样的函数，需要 O(N log N) 次计算和 O(N) 次内存引用，因此 NI 为 O(log N)。如果 N 很大，比如 1,000,000，那么在 GPU 上执行可能会更快；如果 N 很小，比如 1,000，那么几乎肯定会更慢。

对于 BLAS level-3 或 LAPACK 函数（例如矩阵的 LU 分解或查找其特征值），需要 O( N^3) 次计算和 O(N^2) 次内存引用，因此 NI 为 O(N)。对于非常小的数组，假设 N 是几个分数，这在 CPU 上执行起来仍然会更快，但是随着 N 的增加，算法很快就会从内存限制变为计算限制，并且 GPU 上的性能提升也会非常快迅速地。

任何涉及复杂算术的计算量都比标量算术更多，这通常会使 NI 翻倍并提高 GPU 性能。

_{（来源：earthlink.net）}

这里是 CGEMM 的性能——在 Radeon 4870 上完成的复杂单精度矩阵-矩阵乘法。

回复收藏 0 原文

花海 2024-07-12 04:24:09

我已经将 CUDA 用于多种图像处理算法。当然，这些应用程序非常适合 CUDA（或任何 GPU 处理范例）。

IMO，将算法移植到 CUDA 时会经历三个典型阶段：

初始移植：即使具有非常基本的 CUDA 知识，您也可以在几个小时内移植简单的算法。如果幸运的话，您的性能将提高 2 到 10 倍。
简单优化：这包括使用输入数据的纹理和多维数组的填充。如果您有经验，这可以在一天内完成，并且可能会让您的性能再提高 10 倍。生成的代码仍然可读。
硬核优化：这包括将数据复制到共享内存以避免全局内存延迟、彻底翻转代码以减少使用的寄存器数量等。您可能会花费数周时间执行此步骤，但性能会受到影响在大多数情况下，收益并不值得。完成此步骤后，您的代码将变得非常混乱，以至于没有人能够理解它（包括您）。

这与优化 CPU 代码非常相似。然而，GPU 对性能优化的响应比 CPU 更难以预测。

回复收藏 0 原文

国产ˉ祖宗 2024-07-12 04:24:09

我已经编写了一些简单的应用程序，如果您可以并行化浮点计算，那确实很有帮助。

我发现伊利诺伊大学香槟分校教授和 NVIDIA 工程师教授的以下课程在我刚开始使用时非常有用：http://courses.ece.illinois.edu/ece498/al/Archive/Spring2007/Syllabus.html（包括所有讲座的录音）。

回复收藏 0 原文

°如果伤别离去 2024-07-12 04:24:09

我在 GPU 上实现了遗传算法，并获得了大约 7 的加速。正如其他人指出的那样，更高的数值强度可能带来更多收益。所以是的，如果应用正确的话，收益就在那里

回复收藏 0 原文

薆情海 2024-07-12 04:24:09

我编写了一个复值矩阵乘法内核，对于我使用它的应用程序来说，它比 cuBLAS 实现快了大约 30%，并且编写了一种向量外积函数，它比其余的乘法跟踪解决方案运行了几个数量级。问题。

这是最后一年的项目。我花了整整一年的时间。

http://www.maths.tcd.ie/~oconbhup/Maths_Project.pdf

回复收藏 0 原文

方圜几里 2024-07-12 04:24:09

我已经在 CUDA 中实现了蒙特卡罗计算，用于一些财务用途。优化后的 CUDA 代码比“可以更努力但并非真正”的多线程 CPU 实现快约 500 倍。（此处将 GeForce 8800GT 与 Q6600 进行比较）。众所周知，蒙特卡罗问题是令人尴尬地并行的。

遇到的主要问题包括由于 G8x 和 G9x 芯片对 IEEE 单精度浮点数的限制而导致的精度损失。随着 GT200 芯片的发布，通过使用双精度单元可以在一定程度上缓解这种情况，但会牺牲一些性能。我还没有尝试过。

此外，由于 CUDA 是 C 扩展，因此将其集成到另一个应用程序中可能并不简单。

回复收藏 0 原文

苏璃陌 2024-07-12 04:24:09

虽然我还没有任何 CUDA 的实际经验，但我一直在研究这个主题，并发现了一些记录使用 GPGPU API 的积极结果的论文（它们都包含 CUDA）。

这篇论文描述了如何通过创建多个来并行化数据库连接并行原语（映射、分散、聚集等）可以组合成有效的算法。

在这篇论文中，创建了 AES 加密标准的并行实现，其速度与谨慎的加密硬件。

最后，这个论文分析了 CUDA 如何很好地应用于结构化和非结构化网格等多种应用、组合逻辑、动态规划和数据挖掘。

回复收藏 0 原文

浅听莫相离 2024-07-12 04:24:09

我一直在使用 GPGPU 进行运动检测（最初使用 CG，现在使用 CUDA）和图像处理稳定（使用 CUDA）。
在这些情况下，我的速度提高了 10-20 倍。

据我所知，这对于数据并行算法来说是相当典型的。

回复收藏 0 原文

千笙结 2024-07-12 04:24:09

我已经使用 ATI Stream SDK 在 GPU 上实现了 Cholesky 分解来求解大型线性方程。我的观察是

alt text

性能加速高达 10 倍。

通过将其扩展到多个 GPU，致力于解决同一问题以进一步优化它。

回复收藏 0 原文

~没有更多了~

关于作者

难以启齿的温柔

暂无简介

文章

25 人气

关注发私信

友情链接

文江博客

你成功使用过GPGPU吗？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（10）

关于作者

相关话题

热门标签

推荐作者

西西弗的石头怪

5397313

烟沫凡尘

一个破名字

萌︼了一个春

当爱已成负担

友情链接

你成功使用过GPGPU吗？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（10）

关于作者

相关话题

热门标签

推荐作者

西西弗的石头怪

5397313

烟沫凡尘

一个破名字

萌︼了一个春

当爱已成负担

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。