sse

sse

文章 8 浏览 95

按列主顺序重新排序 3D 矢量三元组的速度很慢

我有很多 (x1,y1,z1),(x2,y2,z2),(x3,y3,z3) 单精度向量三元组,我想对它们重新排序,所以 (x1,y1,z1),(x2,y2,z2),(x3,y3,z3) 变成 (x1,x2,x3,0,y1,y2…

忆梦 2024-12-12 17:24:09 3 0

GCC SSE代码优化

这篇文章与我几天前发布的另一篇文章密切相关。这次,我编写了一个简单的代码,仅添加一对元素数组,将结果乘以另一个数组中的值并将其存储在第四个数…

请爱~陌生人 2024-12-12 03:57:34 6 0

为什么要在 ASM 中指定变量的地址而不是仅仅将其复制到寄存器中?

在我学习汇编(在 x86_64 上使用 GCC)的过程中,我遇到了一些 SSE 示例,其中不是将 C 变量复制到寄存器中,而是将地址复制到 EAX 中。当您可以这样…

你丑哭了我 2024-12-12 00:44:12 6 0

使用 SSE2 的 Delphi 中的内联汇编程序效率低下

我有一个简单的基于浮点的操作,它总是执行两次。所以我尝试将其翻译为 SSE 但失败了。高级语言是Delphi,因此由于它不支持内部函数,所以我必须编写…

十秒萌定你 2024-12-12 00:25:07 2 0

通过手写汇编调用本机代码

我正在尝试从托管程序集中调用本机函数。我已经在预编译库上完成了此操作,一切都很顺利。目前我正在建立自己的图书馆,但我无法完成这项工作。 本机 …

我ぃ本無心為│何有愛 2024-12-11 20:03:46 3 0

优化数组压缩

假设我有一个数组 k = [1 2 0 0 5 4 0] 我可以按如下方式计算掩码 m = k > 0 = [1 1 0 0 1 1 0] 仅使用掩码 m 和以下操作 左移/右移 和/或 加/减/乘 …

浮生未歇 2024-12-11 15:24:55 4 0

如何使用 SSE 内在函数针对打包 32x32 优化 C 代码 => 64 位乘法,并将这些结果的一半解包为(伽罗瓦域)

一段时间以来,我一直在努力解决我正在开发的应用程序中网络编码的性能问题(请参阅优化 SSE -code, 提高网络性能coding-encoding 和 OpenCL 分发)。…

无妨# 2024-12-11 12:09:25 3 0

VS2010 SP1是否只支持部分AVX指令集?

Microsoft 声明 VS2010 支持全套 AVX 指令: http://blogs.msdn.com/b/vcblog/archive/2009/11/02/visual-c-code- Generation-in-visual-studio-2010.…

栖迟 2024-12-11 08:28:27 7 0

传递包含 SSE/AVX 值的类型

假设我有以下内容 struct A { __m256 a; } struct B { __m256 a; float b; } 在硬核循环中,以下哪一项通常更好(如果有的话,为什么)? void f0(A a…

差↓一点笑了 2024-12-11 06:29:56 7 0

从 xmm 寄存器提取数据到“标准”;变量,内在变量

如何从 xmm 寄存器中提取 2 个字节或任意数量的字节? 目前我正在使用一个数组来转储整个寄存器,然后访问我想要的字节。然而,这似乎没有那么有效。…

有木有妳兜一样 2024-12-11 00:11:13 6 0

如何在使用 GCC 时禁用矢量化?

我正在使用以下命令编译我的代码: gcc -O3 -ftree-vectorizer-verbose=6 -msse4.1 -ffast-math 这样所有的优化都已启用。 但我想禁用矢量化,同时保…

一个人的旅程 2024-12-10 15:09:05 7 0

优化 SSE 代码

我目前正在为需要一些性能改进的 Java 应用程序开发 C 模块(请参阅 提高网络编码的性能-后台编码)。我尝试使用 SSE-intrinsics 优化代码,它的执行…

浮生未歇 2024-12-10 12:02:11 6 0

Visual Studio 调试器的寄存器窗口中显示的 XMM 寄存器值的含义

我发现很难解释 Visual Studio 寄存器窗口中 xmm 寄存器的值。窗口显示以下内容: XMM0 = 00000000000000004018000000000000 XMM1 = 0000000000000000…

玩物 2024-12-10 07:51:57 4 0

为什么SSE整数平均指令(PAVGB/PAVGW)在计算最终结果之前将临时和加1?

我最近一直在研究视频处理算法的SSE优化。我需要用 C 代码编写完全相同的算法来交叉检查算法的正确性。我好几次忘记了这个事实,这使得两种实现的结果…

瑶笙 2024-12-09 06:40:46 3 0

SSE指令:哪些CPU可以进行原子16B内存操作?

考虑 x86 CPU 上的单个内存访问(单个读取或单个写入,而不是读+写)SSE 指令。该指令正在访问 16 字节(128 位)内存,并且访问的内存位置与 16 字节…

流星番茄 2024-12-08 03:50:27 4 0
更多

推荐作者

李珊平

文章 0 评论 0

Quxin

文章 0 评论 0

范无咎

文章 0 评论 0

github_ZOJ2N8YxBm

文章 0 评论 0

若言

文章 0 评论 0

南…巷孤猫

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文