simd

simd

文章 0 浏览 6

计算距离平方的最快方法

我的代码很大程度上依赖于计算 3D 空间中两点之间的距离。 为了避免昂贵的平方根,我始终使用平方距离。 但它仍然占用了计算时间的主要部分,我想用更…

薄情伤 2024-12-14 20:25:12 0 0

我的 CPU 中存在 SSE 错误?

我很困惑。 当我在 Visual C++ 2008 中运行此代码时: __m128i a, b; a.m128i_u64[0] = 1; b.m128i_u64[0] = 0; a.m128i_u64[1] = 0; b.m128i_u64[1] …

‖放下 2024-12-14 07:07:51 1 0

混合 SIMD 指令和多线程时,性能是否会受到影响?

我有兴趣做一个关于人脸识别的项目(利用 SIMD 指令集)。但在今年的第一学期,我学到了一些关于线程的知识,我想知道是否可以将它们结合起来。 什么…

離殇 2024-12-14 05:48:06 0 0

按列主顺序重新排序 3D 矢量三元组的速度很慢

我有很多 (x1,y1,z1),(x2,y2,z2),(x3,y3,z3) 单精度向量三元组,我想对它们重新排序,所以 (x1,y1,z1),(x2,y2,z2),(x3,y3,z3) 变成 (x1,x2,x3,0,y1,y2…

忆梦 2024-12-12 17:24:09 1 0

为什么要在 ASM 中指定变量的地址而不是仅仅将其复制到寄存器中?

在我学习汇编(在 x86_64 上使用 GCC)的过程中,我遇到了一些 SSE 示例,其中不是将 C 变量复制到寄存器中,而是将地址复制到 EAX 中。当您可以这样…

你丑哭了我 2024-12-12 00:44:12 3 0

优化数组压缩

假设我有一个数组 k = [1 2 0 0 5 4 0] 我可以按如下方式计算掩码 m = k > 0 = [1 1 0 0 1 1 0] 仅使用掩码 m 和以下操作 左移/右移 和/或 加/减/乘 …

浮生未歇 2024-12-11 15:24:55 1 0

如何使用 SSE 内在函数针对打包 32x32 优化 C 代码 => 64 位乘法,并将这些结果的一半解包为(伽罗瓦域)

一段时间以来,我一直在努力解决我正在开发的应用程序中网络编码的性能问题(请参阅优化 SSE -code, 提高网络性能coding-encoding 和 OpenCL 分发)。…

无妨# 2024-12-11 12:09:25 1 0

如何在使用 GCC 时禁用矢量化?

我正在使用以下命令编译我的代码: gcc -O3 -ftree-vectorizer-verbose=6 -msse4.1 -ffast-math 这样所有的优化都已启用。 但我想禁用矢量化,同时保…

一个人的旅程 2024-12-10 15:09:05 4 0

如何在 Sandy Bridge 上将一系列整数中的位快速计数到单独的容器中?

更新:请阅读代码,它不是关于计算一个 int 中的位数 是否可以使用一些聪明的汇编器来提高以下代码的性能? uint bit_counter[64]; void Count(uint64…

对岸观火 2024-12-10 11:39:34 3 0

OpenCL 分发

我目前正在为一组非常异构的计算机(具体使用 JavaCL)开发 OpenCL 应用程序。为了最大限度地提高性能,如果可用,我想使用 GPU,否则我想退回到 CPU …

玩套路吗 2024-12-09 14:21:49 2 0

为什么SSE整数平均指令(PAVGB/PAVGW)在计算最终结果之前将临时和加1?

我最近一直在研究视频处理算法的SSE优化。我需要用 C 代码编写完全相同的算法来交叉检查算法的正确性。我好几次忘记了这个事实,这使得两种实现的结果…

瑶笙 2024-12-09 06:40:46 2 0

GPGPU编程是否只允许执行SIMD指令?

GPGPU编程是否只允许执行SIMD指令? 如果是这样,那么重写一个具有以下特征的算法一定是一项乏味的任务: 被设计为在通用CPU上运行而在GPU上运行?还…

似梦非梦 2024-12-08 20:44:37 4 0

为什么这个循环没有矢量化?

当我分析正在处理的代码时,一个特别的热点是以下循环: for(int loc = start; loc

微凉徒眸意 2024-12-06 01:06:47 6 0

如何在 Cg 中实现高效的并行 SIMD 比较和选择?

您如何有效地进行并行选择? 例如,鉴于此标量代码,是否可以编写它,因此CG编译器将使代码在并行 / SIMD中执行(并且还使用BranchFree Selection使用…

×眷恋的温暖 2024-12-04 07:51:56 6 0

OpenCL 向量类型是否使用 SIMD

我目前在 OpenCL 内核中处理大量浮点数,我想知道是否将该数组分开并使用 OpenCL 向量类型数组来代替,是否会加快处理速度。基本上,如果我有一个包含…

撩动你心 2024-12-02 03:09:17 4 0
更多

推荐作者

忆悲凉

文章 0 评论 0

hgfg1645

文章 0 评论 0

qq_qLPLYi

文章 0 评论 0

戏舞

文章 0 评论 0

殊姿

文章 0 评论 0

﹂绝世的画

文章 0 评论 0

更多

友情链接

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文