cuda算法结构

发布于 2024-11-30 09:05:51 字数 593 浏览 2 评论 0原文

我想了解使用 CUDA 在 GPU 上执行以下操作的一般方法。

我有一个可能看起来像这样的算法:

void DoStuff(int[,] inputMatrix, int[,] outputMatrix)
{
   forloop {
     forloop {
         if (something) {
                DoStuffA(inputMatrix,a,b,c,outputMatrix)
         }
         else {
               DoStuffB(inputMatrix,a,b,c,outputMatrix)
         }
     }
   }
}

DoStuffA 和 DoStuffB 是简单的可并行化函数(例如,执行矩阵行操作),CUDA 示例中有很多。

我想做的是知道如何将主要算法“DoStuff”放到GPU上,然后在需要时调用DoStuffA和DoStuffB(并且它们并行执行)。即外部循环部分是单线程的,但内部调用不是。

我见过的例子似乎从一开始就是多线程的。我假设有一种方法可以从外部调用基于单个 GPU 的方法并让它自己控制所有并行位?

I would like to understand the general way of doing the following on a GPU using CUDA.

I have an algorithm that might look something like this:

void DoStuff(int[,] inputMatrix, int[,] outputMatrix)
{
   forloop {
     forloop {
         if (something) {
                DoStuffA(inputMatrix,a,b,c,outputMatrix)
         }
         else {
               DoStuffB(inputMatrix,a,b,c,outputMatrix)
         }
     }
   }
}

DoStuffA and DoStuffB are simple paralleizable functions (e.g. doing a matrix row operation) that the CUDA examples have plenty of.

What I want to do is to know how to put the main algorithm "DoStuff" onto the GPU and then call DoStuffA and DoStuffB as and when I need to (and they execute in parallel). i.e. the outer loop part is single threaded, but the inner calls are not.

The examples I have seen seem to be multithreaded from the get-go. I assume there is a way to just call a single GPU based method from the outside world and have it control all of the parallel bits by itself?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

陌路黄昏 2024-12-07 09:05:51

这取决于 for 循环中数据相互之间的关系,但粗略地说,我会将

  1. 所有输入矩阵打包到一块内存中
  2. 上传输入矩阵
  3. 在 CPU 上执行 for 循环,调用 DoStuffA 和 DoStuffB 的内核
  4. 在一个块中下载输出矩阵

这样,最大的问题就是调用每个内核的开销。如果您的输入数据很大,那么情况不会那么糟糕。

It depends on how the data inter relates to each other in the for loops, but roughly I would

  1. Pack all input matrices into a block of memory
  2. Upload input matrices
  3. Do for loops on CPU, calling kernels for DoStuffA and DoStuffB
  4. Download output matrices in one block

This way, the biggest problem is overhead for calling each kernel. If your input data is large then it won't be so bad.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文