gpgpu

gpgpu

文章 0 浏览 5

GPGPUsim PTX提取

正如标题所说,我正在学习如何使用GPGPUsim。当我阅读手册的“PTX提取”部分时,我发现它说“在CUDA版本4.0及更高版本中,用于提取ptx和sass的fat cub…

花心好男孩 2025-01-12 19:06:20 0 0

可放入硬件加速器的工作负载限制

我有兴趣了解几乎永远无法放入硬件加速器的工作负载百分比。虽然越来越多的任务适合特定领域的加速器,但我想知道是否有可能存在加速器无用的任务?简…

纵山崖 2025-01-11 17:54:30 0 0

指定结束位时 cub::DeviceRadixSort 失败

我正在使用 CUB 库的 GPU 基数排序算法对 N 个 32 位无符号整数进行排序,这些整数的值都仅使用 32 位中的 k 个,从最低有效位开始。 因此,我在调用 …

半衬遮猫 2025-01-10 20:36:29 1 0

AMD 设备上的物理内存:本地内存与私有内存

我正在 OpenCL 中编写一个算法,其中我需要每个工作单元记住相当一部分数据,例如 long[70] 和 long[200] 每个内核左右。 最近的 AMD 设备拥有 32 KiB…

难以启齿的温柔 2025-01-06 10:59:12 2 0

CPU和GPU之间的指令传输

我正在寻找有关在使用 GPGPU 计算时 CPU 如何将程序代码移动到 GPU 的信息。互联网上有很多关于数据传输的手册,但没有关于指令/程序加载的手册。 问…

影子是时光的心 2025-01-06 07:23:14 1 0

GT540M 上的低性能 CUDA 代码

在 GeForce GT540M 上执行以下代码示例大约需要 750 毫秒,而相同的代码在 GT330M 上执行大约需要 250 毫秒。 将 dev_a 和 dev_b 复制到 CUDA 设备内…

[浮城] 2025-01-05 08:07:44 0 0

将 gl_PrimitiveID 输出到自定义帧缓冲区对象 (FBO) 时出现问题

我有一个非常基本的片段着色器,我想将其输出“gl_PrimitiveID”到我定义的片段缓冲区对象(FBO)。下面是我的片段着色器: #version 150 uniform vec…

很酷不放纵 2025-01-04 22:25:16 0 0

OpenCL:long、long4、long16...什么时候使用?

我试图理解仅使用 long、long2、long3、long4、long8、long16 之间的区别。假设我的 CL_DEVICE_PREFERRED_VECTOR_WIDTH_LONG 为 2。 我什么时候应该使…

妄想挽回 2025-01-03 19:09:07 0 0

使用 GPU 获取数字列表的统计信息

我的文件中有几个数字列表。例如, .333, .324, .123 , .543, .00054 .2243, .333, .53343 , .4434 现在,我想使用 GPU 获取每个数字出现的次数。我相…

°如果伤别离去 2025-01-03 08:32:51 0 0

在代码中共享 GPU 资源

我的程序使用 OpenGL 在屏幕上绘图。此任务强度低但对延迟敏感。我的程序的另一个CPU线程进行一些高强度但优先级低的计算。我使用 OpenCL 在 GPU 上运…

风流物 2025-01-03 02:37:57 0 0

OpenCL:GPU 上的 32 位和 64 位 popcnt 指令?

我想为 GPU(最好是 OpenCL)编写一个程序,并且很大一部分计算包括计算位数组(打包为 long 或 int)中 1 的数量。 因此,在现代 CPU 上,我显然只会…

書生途 2025-01-03 00:33:37 0 0

GCC 中的 OpenHMPP

问题的要点是: 您知道有哪些项目旨在为 GCC 带来 OpenHMPP 支持吗?我也可能会使用价格实惠的商业编译器,但这不太可能,因为我更喜欢 Linux,并且我…

谁的年少不轻狂 2025-01-01 02:08:27 1 0

OpenCL 适合什么类型的代码域?

我阅读了 OpenCL 概述,它指出它适合运行 CPU、GPGPU、DSP 等的代码。但是,从命令参考来看,它似乎都是数学和图像类型操作。我没有看到任何关于字符…

这个俗人 2024-12-29 13:17:31 2 0

如何在Android上使用OpenCL?

对于平台独立性(桌面、云、移动……),当速度很重要时,使用 OpenCL 进行 GPGPU 开发会很棒。我知道 Google 正在推动 RenderScript 作为替代方案,…

小情绪 2024-12-29 07:37:36 4 0

OpenCL AMD 与 NVIDIA 性能对比

我实现了一个简单的内核,它是某种卷积。我在NVIDIA GT 240上进行了测量。在CUDA上编写时需要70毫秒,在OpenCL上编写时需要100毫秒。好吧,我想,NVID…

明明#如月 2024-12-28 16:49:11 2 0
更多

推荐作者

佚名

文章 0 评论 0

羁客

文章 0 评论 0

文章 0 评论 0

夏日落

文章 0 评论 0

隐诗

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文