cuda

cuda

文章 23 浏览 77

CUDA:跨不同内核使用共享内存

这可能吗? 我试图在一个内核中定义一个共享内存数组,然后我需要在不同的内核中使用这些值。 我尝试声明 extern __shared__ float sharedMem[] 外部…

神魇的王 2024-11-01 06:14:09 1 0

CUDA如何获取网格、块、线程大小以及并行化非方阵计算

我是 CUDA 新手,需要帮助理解一些事情。我需要帮助并行化这两个 for 循环。具体来说,如何设置dimBlock 和dimGrid 以使运行速度更快。我知道这看起来…

笙痞 2024-11-01 06:10:43 0 0

邻域点删除的并行化

我正在 CUDA 上实现 Good Features To Track/Shi-Tomasi 角点检测算法,需要找到一种方法来并行化算法的以下部分: 我从根据特定强度值排序的图像中获…

獨角戲 2024-11-01 05:18:20 1 0

CUDA 堆栈压入和弹出

我正在尝试实现一个可以推送 (x,y) 和弹出值的堆栈。 我已经浏览了 Nvidia 论坛,但是我可以找到实现堆栈的方法。 如果有人能展示最简单的例子,那将…

指尖微凉心微凉 2024-11-01 01:43:53 0 0

CUDA 上的二维数组

我想在 CUDA 中动态分配全局 2D 数组。我怎样才能实现这个目标? 在我的 main 中,我在循环中调用我的 Kernel 。但在调用内核之前,我需要在 GPU 上分…

遗弃M 2024-11-01 01:12:03 1 0

CUDA 在执行期间组合线程独立(??)变量

伙计们,如果标题令人困惑,我深表歉意。我虽然很长很努力,但无法想出正确的方法来用一句话来表达这个问题。所以这里有更多细节。我正在做基本的图像…

给妤﹃绝世温柔 2024-11-01 00:24:34 0 0

数字运算服务器的编程语言

我正在寻找一种能够在多处理器和分布式系统上良好扩展的编程语言,并且能够与 GPU 很好地配合进行数字运算。 你认为 Erlang 和 CUDA 是一个很好的搭配…

毅然前行 2024-10-31 23:04:01 1 0

PyCUDA / Copperhead 似乎无法识别 64 位机器

目前我在铜斑蛇方面遇到了两个问题,我怀疑它们是相关的。 运行示例文件 (samples/axpy.py) 会生成许多小警告,但这个警告很突出。 g++ -pthread -fno…

沫尐诺 2024-10-31 22:24:37 0 0

如何在VS2010或VS2008下编译CUDA Toolkit 4.0 RC2程序?

我是一个完整的 CUDA 初学者,我正在尝试弄清楚如何使用 Visual Studio 编写和编译测试 CUDA 程序。 我安装了 CUDA 4 工具包,并安装了 2008 和 2010 …

空城缀染半城烟沙 2024-10-31 20:22:00 0 0

PyCUDA:C/C++包括?

任何地方都没有真正提到(至少我可以看到)是哪些库函数暴露给内联 CUDA 内核。 具体来说,我正在执行小型/愚蠢的矩阵乘法,这些乘法不值得单独卸载到…

风轻花落早 2024-10-31 17:41:00 0 0

为现有全局内存阵列分配更多内存

是否可以将内存添加到全局内存中先前分配的数组中? 我需要做的是: //cudamalloc memory for d_A int n=0int N=100 do { Kernel&lt&lt&lt , &gt&gt&g…

夏有森光若流苏 2024-10-31 17:38:32 0 0

PyCuda:可以导入模块,然后我不能......(PyCUDA 示例)

示例代码: import pycuda.autoinit import pycuda.driver as drv import numpy from pycuda.compiler import SourceModule mod = SourceModule(""" _…

吹梦到西洲 2024-10-31 14:06:42 1 0

cudaMemcpy 参数无效

我的程序运行 2 个线程 - 线程 A(用于输入)和 B(用于处理)。我还有一对指向2个缓冲区的指针,这样当线程A完成将数据复制到缓冲区1时,线程B开始处…

假面具 2024-10-31 12:15:13 1 0

使用高级着色器语言进行计算算法

所以,我听说有些人已经找到了使用高级着色器语言在 GPU 上运行程序的方法,我想开始编写自己的在 GPU 而不是 CPU 上运行的程序,但我一直找不到任何…

执着的年纪 2024-10-31 07:15:13 0 0

共享内存优化混乱

我在 CUDA 中编写了一个应用程序,它在每个块中使用 1kb 共享内存。 由于每个SM中只有16kb的共享内存,所以总共只能容纳16个块,对吗?虽然一次只能调…

下壹個目標 2024-10-31 04:03:36 1 0
更多

推荐作者

烙印

文章 0 评论 0

singlesman

文章 0 评论 0

独孤求败

文章 0 评论 0

晨钟暮鼓

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文