CUDA - 这个循环在做什么

发布于 2024-10-22 02:00:16 字数 588 浏览 1 评论 0原文

嘿我在网站上看到过这个示例内核

 __global__ void loop1( int N, float alpha, float* x, float* y ) {
   int i;
   int i0 = blockIdx.x*blockDim.x + threadIdx.x;

   for(i=i0;i<N;i+=blockDim.x*gridDim.x) {
      y[i] = alpha*x[i] + y[i];
    }
}

要在 C 中计算这个函数

   for(i=0;i<N;i++) {
      y[i] = alpha*x[i] + y[i];
   }

当然内核中的 for 循环是不必要的吗？您可以执行 y[i0] = alpha*x[i0] + y[i0] 并完全删除 for 循环。

我只是好奇它为什么在那里以及它的目的是什么。假设有一个内核调用，例如 loop1<<<64,256>>> 因此大概是 gridDim.x = 1

原文

Hey
I've seen on a website this example kernel

 __global__ void loop1( int N, float alpha, float* x, float* y ) {
   int i;
   int i0 = blockIdx.x*blockDim.x + threadIdx.x;

   for(i=i0;i<N;i+=blockDim.x*gridDim.x) {
      y[i] = alpha*x[i] + y[i];
    }
}

To compute this function in C

   for(i=0;i<N;i++) {
      y[i] = alpha*x[i] + y[i];
   }

Surely the for loop inside the kernel isn't necessary? and you can just do y[i0] = alpha*x[i0] + y[i0] and remove the for loop altogether.

I'm just curious as to why it's there and what it's purpose is. This is assuming a kernel call such as loop1<<<64,256>>>> so presumably gridDim.x = 1

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

终难愈 2024-10-29 02:00:16

如果向量的条目数多于已启动的线程数，则需要在内核中使用 for 循环。如果可能的话，启动足够多的线程当然会更有效。

回复收藏 0 原文

南城旧梦 2024-10-29 02:00:16

有趣的内核。内核内部的循环是必要的，因为 N 大于线程总数，即 16 384 (blockDim.x*gridDim.x)，但我认为这样做不是一个好习惯 （CUDA 的重点是使用 SIMT 概念）。根据 CUDA 编程指南，一个内核最多可以有 65535 个线程块。此外，从计算能力 2.x (Fermi) 开始，每个块最多可以有 1024 个线程（Fermi 之前为 512 个）此外，您还可以（如果可能）将代码分离到多个（顺序）内核中。

回复收藏 0 原文