cuda

cuda

文章 23 浏览 77

CUDA:结果总和

我正在使用 CUDA 来运行一个问题,其中我需要一个包含许多输入矩阵的复杂方程。每个矩阵都有一个 ID,具体取决于其集合(1 到 30 之间,有 100,000 个…

悲喜皆因你 2024-10-05 20:04:33 1 0

CUDA CUDPP .so 构建

我想在我的项目中使用 CUDPP 库。我已从项目页面下载了源代码。不幸的是,当我运行“make”时,只有静态库构建。我查看了 Makefile 文件,没有找到任…

自在安然 2024-10-05 05:20:13 3 0

具有 PCI 接口的 GPU 上的 nVidia CUDA

您是否有在使用 PCI 接口(而不是 PCIe)的已启用 GPU 上使用 CUDA 的经验?有效吗?…

一个人练习一个人 2024-10-04 19:57:08 5 0

我们能否对 CUDA 或 OpenCL 与 CPU 性能相比的速度进行基准测试?

与一般的单处理器核心相比,CUDA 或 OpenCL 代码上的算法运行速度能快多少? (考虑到算法是针对 CPU 和 GPU 目标编写和优化的)。 我知道这取决于显…

停顿的约定 2024-10-04 08:58:29 9 0

结构问题,CUDA C/C++和VS 2008

嘿那里...所以我在这里使用 VS2008,使用 CUDA C 进行编程。我已经安装并运行了 3.2 工具包。 现在我的问题是,我有一个这样的文件: #ifndef _cuda_r…

情释 2024-10-04 06:22:07 2 0

CUDA 扭曲发散和时钟周期

我读到,在具有 8 个 SP 的 SM 上,在执行一条指令期间,warp 中的每个线程都映射到 8 个 SP 中的每一个。因此,warp 在 32/8 = 4 个时钟周期内执行。…

逐鹿 2024-10-04 03:50:19 2 0

使用VS2010打开CUDA SDK示例时出现错误

我已经安装了cudatoolkit_3.2.16_win_64和gpucomputingsdk_3.2.16_win_64。当我选择 SDK 的示例时,出现以下错误: 导入的项目“C:\Program Files (x8…

岁月静好 2024-10-03 18:59:55 2 0

CUDA on Thrust:如何实现优先级队列

我的计划是使用皮尔逊相关性计算距离矩阵,并从距离矩阵中获取每个节点的 q- 最近邻 (q=ln(n)) 并将它们放入结果向量中。我在 C++ 中使用相关函数循环…

难理解 2024-10-03 18:28:45 4 0

在 GPU 上运行的计算任务会对图形性能产生负面影响吗?

我从来没有做过 GPU 编程,但终于买了一张 Nvidia 卡来试验。然而,该卡也驱动我的显示器。我的问题是在卡上运行通用计算任务是否会对图形性能产生负…

场罚期间 2024-10-03 16:17:10 2 0

带 VDPAU 的 GStreamer(使用 nVidia 卡进行 h264 加速)

我使用最新版本的 gstreamer 插件很糟糕,我想尝试 VDPAU。 我用搅拌机基金会的大兔子电影进行了测试。 我尝试过这个命令: gst-launch-0.10 filesrc=…

风尘浪孓 2024-10-03 16:16:46 8 0

新的 Amazon EC2 集群 GPU 实例体验如何?

亚马逊发布了 EC2 - 集群 GPU 实例,我想知道您对此有何体验?它是否稳定,在部署 CUDA 代码之前是否需要大量时间来安装新的驱动程序、SDK 等?…

抚你发端 2024-10-03 06:34:00 3 0

当编译器未提供 uint8_t 时,什么是更好的替代方案?

我正在使用 nvcc 编译 CUDA 内核。不幸的是,nvcc 似乎不支持 uint8_t,尽管它确实支持 int8_t(!)。出于可移植性、可读性和理智的原因,我宁愿不使…

不必你懂 2024-10-03 03:57:13 5 0

在 CUDA 上使用什么库进行矩阵计算?

在 CUDA 上使用什么库进行矩阵计算?或者说有吗?好像每个人都是自己写的。 对于通常的处理器,我使用 Eigen。 GPU 怎么样?…

烟燃烟灭 2024-10-03 02:42:50 3 0

CUDA 分析(解释 gst/gld 请求)

cudaprof 中曾经有用于全局内存的分析计数器(gst_coherent、gst_incoherent、gld_coherent、gld_incoherent),这些计数器对我来说非常有用且清晰,…

ゝ杯具 2024-10-02 21:01:21 5 0

cuda寄存器压力

我有一个内核进行线性最小二乘拟合。事实证明,线程使用了太多寄存器,因此占用率很低。这是内核, __global__ void strainAxialKernel( float* d_dis…

渔村楼浪 2024-10-02 15:56:48 1 0
更多

推荐作者

留蓝

文章 0 评论 0

18790681156

文章 0 评论 0

zach7772

文章 0 评论 0

Wini

文章 0 评论 0

ayeshaaroy

文章 0 评论 0

初雪

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文