gpgpu

gpgpu

文章 0 浏览 4

内核默默地无法执行

我正在尝试在 OpenCL 中编写 MergeSort(我知道,BitonicSort 更快,但我想比较它们),目前我遇到了一个奇怪的问题: 如果我将全局大小设置为 1 << 2…

格子衫的從容 2024-12-04 11:16:59 4 0

.Net 中的 GPGPU 编程 - Microsoft Accelerator VS OpenCL.net [VS 其他]

我正在开发一个程序(在.Net中),它有很多图像处理(如2D卷积,...),我想用GPGPU(并行处理)来完成它们 所以,我有一些选择:Microsoft Accelerat…

梦途 2024-12-04 08:42:55 0 0

如何使用CUDA快速找到另一张图像中的图像?

在我当前的项目中,我需要找到另一张较大尺寸图像中包含的图像的像素精确位置。较小的图像永远不会旋转或拉伸(因此应该逐像素匹配),但它可能具有不…

菩提树下叶撕阳。 2024-12-04 08:12:05 1 0

cuda多内存访问

请给我一些解释内存访问如何在以下内核中工作: __global__ void kernel(float4 *a) { int tid = blockIdx.x * blockDim.x + threadIdx.x; float4 reg…

雨后彩虹 2024-12-04 07:35:20 1 0

cuda nbody模拟-共享内存问题

基于 Nvidia GPU 计算 SDK 的示例,我为 nbody 模拟创建了两个内核。第一个不利用共享内存的内核比第二个使用共享内存的内核快约 15%。为什么共享内存…

清醇 2024-12-02 10:16:39 3 0

OpenCL 与 OpenMP 性能对比

Closed. This question needs to be more focused. It is not currently accepting answers. 想要改进这个问题?通过编辑这篇文章来更新问题,使其仅…

站稳脚跟 2024-12-02 03:41:33 0 0

CUDA 内核函数比同等主机函数花费更长的时间

我正在关注 http://code.google.com/p/stanford- cs193g-sp2010/ 和在线发布的视频讲座,在做其中一个发布的问题集(第一个)时,我遇到了一些稍微违…

翻了热茶 2024-12-01 17:48:56 1 0

关于CUDA中从block到SM的分配细节的问题

我以计算能力1.3的硬件为例。 30 个 SM 可用。那么最多可以同时运行240个块(考虑到寄存器和共享内存的限制,对块数量的限制可能要低得多)。超过 240…

逐鹿 2024-12-01 04:05:50 2 0

是否有方法能够阻止某些块直到满足某些条件?

我想阻止一些块,直到一个变量被设置为特定值。所以我编写这段代码来测试一个简单的 do-while 循环是否有效。 __device__ int tag = 0; __global__ vo…

來不及說愛妳 2024-11-30 11:17:09 1 0

cpu 与 gpu - 当 cpu 更好时

我知道很多 GPU 比 CPU 快得多的例子。但存在很难并行化的算法(问题)。你能给我一些CPU可以战胜GPU的例子或测试吗? 编辑: 感谢您的建议!我们可以…

紫竹語嫣☆ 2024-11-30 04:08:26 3 0

OpenCL - 如何查询设备的 SIMD 宽度?

在CUDA中,有一个warp的概念,它被定义为在单个处理元素内可以同时执行相同指令的最大线程数。对于 NVIDIA 来说,当前市场上所有卡的扭曲大小都是 32…

掩饰不了的爱 2024-11-29 22:43:21 1 0

CUDA 凸包程序在大输入时崩溃

我正在尝试在 CUDA 中并行实现 QuickHull 算法(对于凸包)。当 input_size <= 100 万时它可以正常工作。当我尝试 1000 万点时,程序崩溃了。我的显卡…

鱼窥荷 2024-11-29 22:32:31 2 0

错误:asm 操作数类型大小 (1) 与约束“r”隐含的类型/大小不匹配。关于 Duane Merrill 的 GPU 基数排序

当我尝试在win-XP + VS2005下编译Merrill的基数排序时出现错误。 错误:asm 操作数类型大小(1) 与约束“r”隐含的类型/大小不匹配。 它出现在以下代码…

故事与诗 2024-11-29 18:20:20 2 0

GPU 在科学模拟中如何以及在何处使用?

GPU 如何以及在何处用于科学模拟(特别是天体物理学/宇宙学)?…

葵雨 2024-11-29 10:04:04 0 0

opencl 命令队列是如何工作的,我能要求它做什么

我正在研究一种算法,它可以多次执行几乎相同的操作。由于该操作由一些线性代数(BLAS)组成,我想我会尝试使用 GPU 来完成此操作。 我已经编写了内核…

白龙吟 2024-11-29 02:55:07 1 0
更多

推荐作者

離殇

文章 0 评论 0

小姐丶请自重

文章 0 评论 0

Aik

文章 0 评论 0

国产ˉ祖宗

文章 0 评论 0

猥琐帝

文章 0 评论 0

半仙

文章 0 评论 0

更多

友情链接

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文