第 2 页 - gpgpu - 文江博客

投稿关注

gpgpu

文章 0 浏览 4

内核默默地无法执行

我正在尝试在 OpenCL 中编写 MergeSort（我知道，BitonicSort 更快，但我想比较它们），目前我遇到了一个奇怪的问题：如果我将全局大小设置为 1 << 2…

格子衫的從容 2024-12-04 11:16:59 4 0

.Net 中的 GPGPU 编程 - Microsoft Accelerator VS OpenCL.net [VS 其他]

我正在开发一个程序（在.Net中），它有很多图像处理（如2D卷积，...），我想用GPGPU（并行处理）来完成它们所以，我有一些选择：Microsoft Accelerat…

梦途 2024-12-04 08:42:55 0 0

如何使用CUDA快速找到另一张图像中的图像？

在我当前的项目中，我需要找到另一张较大尺寸图像中包含的图像的像素精确位置。较小的图像永远不会旋转或拉伸（因此应该逐像素匹配），但它可能具有不…

菩提树下叶撕阳。 2024-12-04 08:12:05 1 0

cuda多内存访问

请给我一些解释内存访问如何在以下内核中工作： __global__ void kernel(float4 *a) { int tid = blockIdx.x * blockDim.x + threadIdx.x; float4 reg…

雨后彩虹 2024-12-04 07:35:20 1 0

cuda nbody模拟-共享内存问题

基于 Nvidia GPU 计算 SDK 的示例，我为 nbody 模拟创建了两个内核。第一个不利用共享内存的内核比第二个使用共享内存的内核快约 15%。为什么共享内存…

清醇 2024-12-02 10:16:39 3 0

OpenCL 与 OpenMP 性能对比

Closed. This question needs to be more focused. It is not currently accepting answers. 想要改进这个问题？通过编辑这篇文章来更新问题，使其仅…

站稳脚跟 2024-12-02 03:41:33 0 0

CUDA 内核函数比同等主机函数花费更长的时间

我正在关注 http://code.google.com/p/stanford- cs193g-sp2010/ 和在线发布的视频讲座，在做其中一个发布的问题集（第一个）时，我遇到了一些稍微违…

翻了热茶 2024-12-01 17:48:56 1 0

关于CUDA中从block到SM的分配细节的问题

我以计算能力1.3的硬件为例。 30 个 SM 可用。那么最多可以同时运行240个块（考虑到寄存器和共享内存的限制，对块数量的限制可能要低得多）。超过 240…

逐鹿 2024-12-01 04:05:50 2 0

是否有方法能够阻止某些块直到满足某些条件？

我想阻止一些块，直到一个变量被设置为特定值。所以我编写这段代码来测试一个简单的 do-while 循环是否有效。 __device__ int tag = 0; __global__ vo…

來不及說愛妳 2024-11-30 11:17:09 1 0

cpu 与 gpu - 当 cpu 更好时

我知道很多 GPU 比 CPU 快得多的例子。但存在很难并行化的算法（问题）。你能给我一些CPU可以战胜GPU的例子或测试吗？编辑：感谢您的建议！我们可以…

紫竹語嫣☆ 2024-11-30 04:08:26 3 0

OpenCL - 如何查询设备的 SIMD 宽度？

在CUDA中，有一个warp的概念，它被定义为在单个处理元素内可以同时执行相同指令的最大线程数。对于 NVIDIA 来说，当前市场上所有卡的扭曲大小都是 32…

掩饰不了的爱 2024-11-29 22:43:21 1 0

CUDA 凸包程序在大输入时崩溃

我正在尝试在 CUDA 中并行实现 QuickHull 算法（对于凸包）。当 input_size <= 100 万时它可以正常工作。当我尝试 1000 万点时，程序崩溃了。我的显卡…

鱼窥荷 2024-11-29 22:32:31 2 0

错误：asm 操作数类型大小 (1) 与约束“r”隐含的类型/大小不匹配。关于 Duane Merrill 的 GPU 基数排序

当我尝试在win-XP + VS2005下编译Merrill的基数排序时出现错误。错误：asm 操作数类型大小(1) 与约束“r”隐含的类型/大小不匹配。它出现在以下代码…

故事与诗 2024-11-29 18:20:20 2 0

GPU 在科学模拟中如何以及在何处使用？

GPU 如何以及在何处用于科学模拟（特别是天体物理学/宇宙学）？…

葵雨 2024-11-29 10:04:04 0 0

opencl 命令队列是如何工作的，我能要求它做什么

我正在研究一种算法，它可以多次执行几乎相同的操作。由于该操作由一些线性代数（BLAS）组成，我想我会尝试使用 GPU 来完成此操作。我已经编写了内核…

白龙吟 2024-11-29 02:55:07 1 0

共 9 页
上一页
1
2
3
4
5
下一页

关注

離殇

文章 0 评论 0

关注

小姐丶请自重

文章 0 评论 0

关注

Aik

文章 0 评论 0

关注

国产ˉ祖宗

文章 0 评论 0

关注

猥琐帝

文章 0 评论 0

关注

半仙

文章 0 评论 0

友情链接

文江博客

gpgpu

内核默默地无法执行

.Net 中的 GPGPU 编程 - Microsoft Accelerator VS OpenCL.net [VS 其他]

如何使用CUDA快速找到另一张图像中的图像？

cuda多内存访问

cuda nbody模拟-共享内存问题

OpenCL 与 OpenMP 性能对比

CUDA 内核函数比同等主机函数花费更长的时间

关于CUDA中从block到SM的分配细节的问题

是否有方法能够阻止某些块直到满足某些条件？

cpu 与 gpu - 当 cpu 更好时

OpenCL - 如何查询设备的 SIMD 宽度？

CUDA 凸包程序在大输入时崩溃

错误：asm 操作数类型大小 (1) 与约束“r”隐含的类型/大小不匹配。关于 Duane Merrill 的 GPU 基数排序

GPU 在科学模拟中如何以及在何处使用？

opencl 命令队列是如何工作的，我能要求它做什么

热门标签

推荐作者

離殇

小姐丶请自重

Aik

国产ˉ祖宗

猥琐帝

半仙

友情链接