sse

sse

文章 8 浏览 91

movlps的NASM 64位立即地址给出“双字数据超出边界”

我需要具有 64 位宽立即地址的指令 movlps,根据 Intel 手册,这应该是完全可能的。所以,像这样: movlps xmm0, [0x7fffffffffa0] 但我得到的只是 NA…

橘味果▽酱 2024-09-17 08:01:38 6 0

SSE2内在函数:直接访问内存

许多 SSE 指令允许源操作数是 16 字节对齐的内存地址。例如,各种(拆)包指令。 PUNCKLBW 具有以下签名: PUNPCKLBW xmm1,xmm2/m128 现在这对于内在…

谜兔 2024-09-12 13:16:21 3 0

SSE 访问违规

我有代码: float *mu_x_ptr __m128 *tmp __m128 *mm_mu_x mu_x_ptr = _aligned_malloc(4*sizeof(float), 16) mm_mu_x = (__m128*) mu_x_ptr for(row …

薄荷梦 2024-09-12 10:06:37 3 0

上交所挤满的流通股上翻转标志

我正在寻找最有效的方法来翻转 SSE 寄存器中所有四个浮点数的符号。 我没有在英特尔架构软件开发手册中找到执行此操作的内在函数。以下是我已经尝试过…

凡间太子 2024-09-12 07:07:51 6 0

使用 SSE 计算无符号整数之间的绝对差

在 C 中是否有一种无分支技术来计算两个无符号整数之间的绝对差?例如,给定变量 a 和 b,当 a=3、b=5 或 b=3、a=5 时,我想要值 2。理想情况下,我还…

苏璃陌 2024-09-12 04:07:59 9 0

确保编译器始终使用 SSE sqrt 指令

我试图让 GCC(或 clang)始终使用 SSE 指令进行 sqrt,而不是数学库函数来进行计算密集型科学应用程序。我在各种 32 位和 64 位 OS X 和 Linux 系统…

巷雨优美回忆 2024-09-10 01:56:07 4 0

使用 sse 指令进行复杂的 Mul 和 Div

通过 SSE 指令执行复杂的乘法和除法是否有益? 我知道使用 SSE 时加法和减法表现更好。有人可以告诉我如何使用 SSE 执行复杂的乘法以获得更好的性能吗…

橙幽之幻 2024-09-08 18:32:01 6 0

SIMD/SSE 新手:简单的图像过滤

我对 SIMD/SSE 很陌生,我正在尝试做一些简单的图像过滤(模糊)。 下面的代码在水平方向上使用简单的 [1 2 1] 权重过滤 8 位灰度位图的每个像素。我…

幸福还没到 2024-09-07 10:04:27 2 0

Ruby SIMD 和上证所

我想知道是否有一种方法可以扩展 ruby​​ 数组类型来执行 SIMD 和 SIMD 操作。 SSE向量计算。 我的意思是用低级语言实现,以便在 ruby​​ 程序中使…

因为看清所以看轻 2024-09-07 01:30:36 1 0

快双->使用 SSE 进行短转换和钳位?

有没有一种快速方法可以将双精度值转换为短裤(16 位有符号),目前我正在做这样的事情: double dval = &ltsum junk&gt int16_t sval if (val &gt in…

吾性傲以野 2024-09-05 14:11:39 2 0

快速24位数组-> 32位数组转换?

快速摘要: 我有一个 24 位值的数组。关于如何快速将各个 24 位数组元素扩展为 32 位元素,有什么建议吗? 详细信息: 我正在使用 DirectX 10 中的像…

走走停停 2024-09-04 15:13:01 3 0

简明 SSE 和 MMX 指令参考以及延迟和吞吐量

我正在尝试通过使用带有内联汇编的 MMX 和 SSE 指令集来优化一些算术。然而,我一直无法找到有关这些增强指令集的时序和用法的良好参考。您能否帮我找…

等待我真够勒 2024-09-04 12:23:56 7 0

g++上证所内在困境——内在“饱和”带来的价值

我编写了一个简单的程序来实现 SSE 内在函数,用于计算两个大型(100000 个或更多元素)向量的内积。该程序比较了传统方法和使用内在函数计算内积的执…

长不大的小祸害 2024-09-04 02:14:58 7 0

需要对我的 SSE/Assembly 尝试提出一些建设性的批评

我正在努力将一些代码转换为 SSE,虽然我有正确的输出,但它比标准 C++ 代码慢。 我需要执行此操作的代码是: float ox = p2x - (px * c - py * s)*m …

瘫痪情歌 2024-09-03 13:19:41 1 0

SSE SIMD 优化 For 循环

我在循环中有一些代码 for(int i = 0 i &lt n i++) { u[i] = c * u[i] + s * b[i] } 所以,u 和 b 是相同长度的向量,c 和 s 是标量。该代码是否适合…

燕归巢 2024-09-02 18:27:19 5 0
更多

推荐作者

1CH1MKgiKxn9p

文章 0 评论 0

ゞ记忆︶ㄣ

文章 0 评论 0

JackDx

文章 0 评论 0

信远

文章 0 评论 0

yaoduoduo1995

文章 0 评论 0

霞映澄塘

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文