第 6 页 - sse - 文江博客

投稿关注

sse

文章 8 浏览 95

按列主顺序重新排序 3D 矢量三元组的速度很慢

我有很多 (x1,y1,z1),(x2,y2,z2),(x3,y3,z3) 单精度向量三元组，我想对它们重新排序，所以 (x1,y1,z1),(x2,y2,z2),(x3,y3,z3) 变成 (x1,x2,x3,0,y1,y2…

忆梦 2024-12-12 17:24:09 3 0

GCC SSE代码优化

这篇文章与我几天前发布的另一篇文章密切相关。这次，我编写了一个简单的代码，仅添加一对元素数组，将结果乘以另一个数组中的值并将其存储在第四个数…

请爱~陌生人 2024-12-12 03:57:34 6 0

为什么要在 ASM 中指定变量的地址而不是仅仅将其复制到寄存器中？

在我学习汇编（在 x86_64 上使用 GCC）的过程中，我遇到了一些 SSE 示例，其中不是将 C 变量复制到寄存器中，而是将地址复制到 EAX 中。当您可以这样…

你丑哭了我 2024-12-12 00:44:12 6 0

使用 SSE2 的 Delphi 中的内联汇编程序效率低下

我有一个简单的基于浮点的操作，它总是执行两次。所以我尝试将其翻译为 SSE 但失败了。高级语言是Delphi，因此由于它不支持内部函数，所以我必须编写…

十秒萌定你 2024-12-12 00:25:07 2 0

通过手写汇编调用本机代码

我正在尝试从托管程序集中调用本机函数。我已经在预编译库上完成了此操作，一切都很顺利。目前我正在建立自己的图书馆，但我无法完成这项工作。本机 …

我ぃ本無心為│何有愛 2024-12-11 20:03:46 3 0

优化数组压缩

假设我有一个数组 k = [1 2 0 0 5 4 0] 我可以按如下方式计算掩码 m = k > 0 = [1 1 0 0 1 1 0] 仅使用掩码 m 和以下操作左移/右移和/或加/减/乘 …

浮生未歇 2024-12-11 15:24:55 4 0

如何使用 SSE 内在函数针对打包 32x32 优化 C 代码 => 64 位乘法，并将这些结果的一半解包为（伽罗瓦域）

一段时间以来，我一直在努力解决我正在开发的应用程序中网络编码的性能问题（请参阅优化 SSE -code, 提高网络性能coding-encoding 和 OpenCL 分发）。…

无妨# 2024-12-11 12:09:25 3 0

VS2010 SP1是否只支持部分AVX指令集？

Microsoft 声明 VS2010 支持全套 AVX 指令： http://blogs.msdn.com/b/vcblog/archive/2009/11/02/visual-c-code- Generation-in-visual-studio-2010.…

栖迟 2024-12-11 08:28:27 7 0

传递包含 SSE/AVX 值的类型

假设我有以下内容 struct A { __m256 a; } struct B { __m256 a; float b; } 在硬核循环中，以下哪一项通常更好（如果有的话，为什么）？ void f0(A a…

差↓一点笑了 2024-12-11 06:29:56 7 0

从 xmm 寄存器提取数据到“标准”；变量，内在变量

如何从 xmm 寄存器中提取 2 个字节或任意数量的字节？目前我正在使用一个数组来转储整个寄存器，然后访问我想要的字节。然而，这似乎没有那么有效。…

有木有妳兜一样 2024-12-11 00:11:13 6 0

如何在使用 GCC 时禁用矢量化？

我正在使用以下命令编译我的代码： gcc -O3 -ftree-vectorizer-verbose=6 -msse4.1 -ffast-math 这样所有的优化都已启用。但我想禁用矢量化，同时保…

一个人的旅程 2024-12-10 15:09:05 7 0

优化 SSE 代码

我目前正在为需要一些性能改进的 Java 应用程序开发 C 模块（请参阅提高网络编码的性能-后台编码）。我尝试使用 SSE-intrinsics 优化代码，它的执行…

浮生未歇 2024-12-10 12:02:11 6 0

Visual Studio 调试器的寄存器窗口中显示的 XMM 寄存器值的含义

我发现很难解释 Visual Studio 寄存器窗口中 xmm 寄存器的值。窗口显示以下内容： XMM0 = 00000000000000004018000000000000 XMM1 = 0000000000000000…

玩物 2024-12-10 07:51:57 4 0

为什么SSE整数平均指令（PAVGB/PAVGW）在计算最终结果之前将临时和加1？

我最近一直在研究视频处理算法的SSE优化。我需要用 C 代码编写完全相同的算法来交叉检查算法的正确性。我好几次忘记了这个事实，这使得两种实现的结果…

瑶笙 2024-12-09 06:40:46 3 0

SSE指令：哪些CPU可以进行原子16B内存操作？

考虑 x86 CPU 上的单个内存访问（单个读取或单个写入，而不是读+写）SSE 指令。该指令正在访问 16 字节（128 位）内存，并且访问的内存位置与 16 字节…

流星番茄 2024-12-08 03:50:27 4 0

共 17 页
上一页
4
5
6
7
8
下一页

友情链接

文江博客

sse