gpgpu

投稿关注

文章 0 浏览 5

GPGPUsim PTX提取

正如标题所说，我正在学习如何使用GPGPUsim。当我阅读手册的“PTX提取”部分时，我发现它说“在CUDA版本4.0及更高版本中，用于提取ptx和sass的fat cub…

花心好男孩 2025-01-12 19:06:20 0 0

可放入硬件加速器的工作负载限制

我有兴趣了解几乎永远无法放入硬件加速器的工作负载百分比。虽然越来越多的任务适合特定领域的加速器，但我想知道是否有可能存在加速器无用的任务？简…

纵山崖 2025-01-11 17:54:30 0 0

指定结束位时 cub::DeviceRadixSort 失败

我正在使用 CUB 库的 GPU 基数排序算法对 N 个 32 位无符号整数进行排序，这些整数的值都仅使用 32 位中的 k 个，从最低有效位开始。因此，我在调用 …

半衬遮猫 2025-01-10 20:36:29 1 0

AMD 设备上的物理内存：本地内存与私有内存

我正在 OpenCL 中编写一个算法，其中我需要每个工作单元记住相当一部分数据，例如 long[70] 和 long[200] 每个内核左右。最近的 AMD 设备拥有 32 KiB…

难以启齿的温柔 2025-01-06 10:59:12 2 0

CPU和GPU之间的指令传输

我正在寻找有关在使用 GPGPU 计算时 CPU 如何将程序代码移动到 GPU 的信息。互联网上有很多关于数据传输的手册，但没有关于指令/程序加载的手册。问…

影子是时光的心 2025-01-06 07:23:14 1 0

GT540M 上的低性能 CUDA 代码

在 GeForce GT540M 上执行以下代码示例大约需要 750 毫秒，而相同的代码在 GT330M 上执行大约需要 250 毫秒。将 dev_a 和 dev_b 复制到 CUDA 设备内…

[浮城] 2025-01-05 08:07:44 0 0

将 gl_PrimitiveID 输出到自定义帧缓冲区对象 (FBO) 时出现问题

我有一个非常基本的片段着色器，我想将其输出“gl_PrimitiveID”到我定义的片段缓冲区对象（FBO）。下面是我的片段着色器： #version 150 uniform vec…

很酷不放纵 2025-01-04 22:25:16 0 0

OpenCL：long、long4、long16...什么时候使用？

我试图理解仅使用 long、long2、long3、long4、long8、long16 之间的区别。假设我的 CL_DEVICE_PREFERRED_VECTOR_WIDTH_LONG 为 2。我什么时候应该使…

妄想挽回 2025-01-03 19:09:07 0 0

使用 GPU 获取数字列表的统计信息

我的文件中有几个数字列表。例如， .333, .324, .123 , .543, .00054 .2243, .333, .53343 , .4434 现在，我想使用 GPU 获取每个数字出现的次数。我相…

°如果伤别离去 2025-01-03 08:32:51 0 0

在代码中共享 GPU 资源

我的程序使用 OpenGL 在屏幕上绘图。此任务强度低但对延迟敏感。我的程序的另一个CPU线程进行一些高强度但优先级低的计算。我使用 OpenCL 在 GPU 上运…

风流物 2025-01-03 02:37:57 0 0

OpenCL：GPU 上的 32 位和 64 位 popcnt 指令？

我想为 GPU（最好是 OpenCL）编写一个程序，并且很大一部分计算包括计算位数组（打包为 long 或 int）中 1 的数量。因此，在现代 CPU 上，我显然只会…

書生途 2025-01-03 00:33:37 0 0

GCC 中的 OpenHMPP

问题的要点是：您知道有哪些项目旨在为 GCC 带来 OpenHMPP 支持吗？我也可能会使用价格实惠的商业编译器，但这不太可能，因为我更喜欢 Linux，并且我…

谁的年少不轻狂 2025-01-01 02:08:27 1 0

OpenCL 适合什么类型的代码域？

我阅读了 OpenCL 概述，它指出它适合运行 CPU、GPGPU、DSP 等的代码。但是，从命令参考来看，它似乎都是数学和图像类型操作。我没有看到任何关于字符…

这个俗人 2024-12-29 13:17:31 2 0

如何在Android上使用OpenCL？

对于平台独立性（桌面、云、移动……），当速度很重要时，使用 OpenCL 进行 GPGPU 开发会很棒。我知道 Google 正在推动 RenderScript 作为替代方案，…

小情绪 2024-12-29 07:37:36 4 0

OpenCL AMD 与 NVIDIA 性能对比

我实现了一个简单的内核，它是某种卷积。我在NVIDIA GT 240上进行了测量。在CUDA上编写时需要70毫秒，在OpenCL上编写时需要100毫秒。好吧，我想，NVID…

明明#如月 2024-12-28 16:49:11 2 0

共 15 页
1
2
3
4
5
下一页

佚名

文章 0 评论 0

关注

羁客

文章 0 评论 0

关注

天天爱笑的徐老师

文章 0 评论 0

关注

星

文章 0 评论 0

关注

夏日落

文章 0 评论 0

关注

隐诗

文章 0 评论 0

友情链接

文江博客

gpgpu

GPGPUsim PTX提取

可放入硬件加速器的工作负载限制

指定结束位时 cub::DeviceRadixSort 失败

AMD 设备上的物理内存：本地内存与私有内存

CPU和GPU之间的指令传输

GT540M 上的低性能 CUDA 代码

将 gl_PrimitiveID 输出到自定义帧缓冲区对象 (FBO) 时出现问题

OpenCL：long、long4、long16...什么时候使用？

使用 GPU 获取数字列表的统计信息

在代码中共享 GPU 资源

OpenCL：GPU 上的 32 位和 64 位 popcnt 指令？

GCC 中的 OpenHMPP

OpenCL 适合什么类型的代码域？

如何在Android上使用OpenCL？

OpenCL AMD 与 NVIDIA 性能对比

热门标签

推荐作者

佚名

羁客

天天爱笑的徐老师

星

夏日落

隐诗

友情链接