当前位置：文江博客话题详情

我们能否对 CUDA 或 OpenCL 与 CPU 性能相比的速度进行基准测试？

发布于 2024-10-04 08:58:29 字数 266 浏览 9 评论 0原文

与一般的单处理器核心相比，CUDA 或 OpenCL 代码上的算法运行速度能快多少？（考虑到算法是针对 CPU 和 GPU 目标编写和优化的）。

我知道这取决于显卡和 CPU，但比如说，NVIDIA 最快的 GPU 之一和 Intel i7 处理器（单核）？

我知道这还取决于算法的类型。

我不需要严格的答案，但有经验的例子如下：对于使用双精度浮点和每像素 10 次操作的图像处理算法，前 5 分钟需要花费 5 分钟，现在使用该硬件运行在 x 秒内。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

卷耳 2024-10-11 08:58:29

你的问题太宽泛了，很难回答。此外，只有一小部分算法（处理没有太多共享状态的算法）在 GPU 上可行。

但我确实想敦促您对这些说法持批评态度。我从事图像处理工作，阅读了很多有关该主题的文章，但在 GPU 情况下，将输入数据上传到 GPU 并将结果下载回主内存的时间通常不是包含在因子的计算中。

虽然在某些情况下这并不重要（两者都很小或者有第二阶段计算进一步减小结果的大小），但通常确实必须传输结果和初始数据。

我已经看到这将声称的优点变成了缺点，因为仅上传/下载时间就比主 CPU 进行计算所需的时间长。

几乎同样的情况也适用于组合不同 GPU 卡的结果。

更新较新的 GPU 似乎能够使用乒乓缓冲区同时上传/下载和计算。但彻底检查边境状况的建议仍然有效。那里有很多旋转。

更新 2 通常使用与视频输出共享的 GPU 并不是最佳选择。例如，考虑添加低预算视频卡，并使用板载视频执行 GPGPU 任务

回复收藏 0 原文

旧伤还要旧人安 2024-10-11 08:58:29

我认为这个 OpenCL 的视频介绍在第一集或第二集中很好地回答了你的问题（我不记得了）。我认为这是在第一集的结尾......

总的来说，这取决于你“并行化”问题的能力。问题大小本身也是一个因素，因为将数据复制到显卡会花费时间。

回复收藏 0 原文

诗酒趁年少 2024-10-11 08:58:29

这在很大程度上取决于算法以及实现的效率。

总的来说，可以公平地说 GPU 的计算能力比 CPU 更好。因此，上限是将高端 GPU 的理论 GFlops 评级除以高端 CPU。您可以对理论内存带宽进行类似的计算。

例如，GTX580 为 1581.1 GFLOPS，而 i7 980XE 为 107.55 GFLOPS。请注意，GTX580 的评级是针对单精度的。我相信对于费米类非特斯拉，您需要将其减少 4 倍才能达到双精度等级。因此，在这种情况下，您可能期望大约 4 倍。

关于为什么您可能做得更好的警告（或查看声称具有更大加速速度的结果）：

一旦数据存储在卡上，GPU 的内存带宽就比 CPU 更好。有时，内存限制算法可以在 GPU 上表现良好。
巧妙使用缓存（纹理内存等），可以让您比广告带宽做得更好。
就像 Marco 所说，传输时间不包括在内。我个人总是将这样的时间纳入我的工作中，因此发现我所见过的最大加速是在所有数据都适合 GPU 的迭代算法中（我个人在中端 CPU 到中端 GPU 上获得了超过 300 倍的加速））。
苹果与橙子的比较。将高端 GPU 与低端 CPU 进行比较本质上是不公平的。反驳是高端CPU的成本比高端GPU高得多。一旦您进行 GFlops/$ 或 GFlops/Watt 比较，它看起来对 GPU 更有利。

回复收藏 0 原文

夏末 2024-10-11 08:58:29

__kernel void vecAdd(__global float* results )
{
   int id = get_global_id(0);
}

该内核代码可以在 10 毫秒内在新的 60 美元 R7-240 GPU 上生成 16M 线程。

这相当于 10 纳秒内创建 16 个线程或进行上下文切换。 140 美元的 FX-8150 8 核 CPU 时序是多少？每个核心 50 纳秒内有 1 个线程。

该内核中添加的每条指令对于 GPU 来说都是一场胜利，直到它进行分支。

__kernel void vecAdd(__global float* results )
{
   int id = get_global_id(0);
}

this kernel code can spawn 16M threads on a new 60$ R7-240 GPU in 10 milliseconds.

This is equivalent to 16 thread creations or context switches in 10 nanoseconds. What is a 140$ FX-8150 8-core CPU timing? It is 1 thread in 50 nanoseconds per core.

Every instruction added in this kernel is a win for a gpu until it makes branching.

回复收藏 0 原文