sse2

sse2

文章 0 浏览 3

对有符号整数内的元组进行排序

我使用 SSE2 将 16+16 位元组排序为 32 位整数。只有用于比较和最小值/最大值的有符号整数指令。我对较高部分的顺序没有问题,因为它只是一个散列。但…

爱要勇敢去追 2024-10-31 05:36:30 1 0

GCC 对 XMM 寄存器的支持严重损坏?

每当我检查 GCC 生成的汇编代码中使用 __m128i 类型的代码时,我都会看到看起来像是一场灾难。有大量的冗余指令没有任何作用。 然而,作为一名汇编程…

恏ㄋ傷疤忘ㄋ疼 2024-10-21 21:48:47 0 0

sse/sse2 双矩阵浮点向量乘法

我必须使用 sse/sse2 实现矩阵向量乘法。 向量和矩阵很大。 矩阵是双精度的,向量是浮点的。 关键是我必须在浮点数上进行的所有计算 - 当我从矩阵获取…

素年丶 2024-10-19 12:45:11 1 0

使用TBB用很少的指令(SSE2,SSE4)优化循环

我有一个简单的图像处理相关算法。 简而言之,浮点数图像(平均值)减去 8 位图像 然后将结果保存到浮点图像(dest) 该函数主要由内在函数编写。 我…

何以畏孤独 2024-10-16 20:53:35 3 0

如何让下面的代码更快

int u1, u2 unsigned long elm1[20], _mulpre[16][20], res1[40], res2[40] 64 bits long res1, res2 initialized to zero. l = 60 while (l) { for (…

浅笑轻吟梦一曲 2024-10-08 09:19:09 6 0

SIMD 代码与标量代码

以下循环执行数百次。 &lt代码&gt elma 和 elmc 都是无符号长(64 位)数组,res1 和 res2 也是如此。 unsigned long simdstore[2] __m128i *p, simda…

梦纸 2024-10-07 03:19:24 5 0

64 位特定 simd 内在函数

我在 SSE2 中使用以下联合声明。 typedef unsigned long uli typedef uli v4si __attribute__ ((vector_size(16))) typedef union { v4si v uli data[…

帅冕 2024-10-07 00:31:09 5 0

boost::shared_array 和对齐内存分配

在 Visual C++ 中,我尝试动态分配一些 16 字节对齐的内存,以便我可以使用需要内存对齐的 SSE2 函数。现在这就是我分配内存的方式: boost::shared_a…

纵性 2024-09-28 23:59:57 4 0

在汇编中将无符号字符转换为浮点数(为浮点向量计算做准备)

我正在尝试使用 SSE2 优化函数。我想知道是否可以比这种方式更好地为我的汇编代码准备数据。我的源数据是来自 pSrcData 的一堆无符号字符。我将其复制…

泪是无色的血 2024-09-28 12:44:37 6 0

如何使用 SSE 内在函数将值存储在不连续的内存位置?

我对 SSE 非常陌生,并且已经使用内在函数优化了一段代码。我对操作本身很满意,但我正在寻找更好的方法来编写结果。结果最终包含在三个 _m128i 变量…

你另情深 2024-09-27 19:00:22 5 0

带 /CLR 开关的 SSE2 指令支持

为什么 SSE2 增强指令集优化不适用于使用 /clr 开关编译的 C++ 程序?…

温柔一刀 2024-09-09 02:39:00 3 0

x87 中的扩展(80 位)双浮点,而不是 SSE2 - 我们不会错过它吗?

我今天读到研究人员发现 NVidia 的 Phys-X 库使用 x87 FP 与 SSE2。显然,对于速度胜过精度的并行数据集来说,这不是最佳选择。然而,文章作者继续引…

半仙 2024-09-08 12:45:56 4 0

逻辑 SSE 内在函数之间有什么区别?

不同类型的逻辑 SSE 内在函数之间有什么区别吗?例如,如果我们进行 OR 运算,则存在三个内在函数:_mm_or_ps、_mm_or_pd 和 _mm_or_si128 所有这些都…

滿滿的愛 2024-08-31 20:03:04 9 0

在 C++ 中实现 SIMD

我正在编写一些代码,并尝试尽可能地优化它,基本上让它在一定的时间限制下运行。 下面进行调用...... static affinity_partitioner ap parallel_for(…

稀香 2024-08-30 23:32:09 9 0

将 128 位 xmm 寄存器的高位和低位 64 位相加

我在 xmm0 中有两个压缩四字整数,我需要将它们加在一起并将结果存储在内存位置中。我可以保证每个整数的值都小于2^15。现在,我正在做以下事情: int…

逐鹿 2024-08-14 22:22:33 7 0
更多

推荐作者

1CH1MKgiKxn9p

文章 0 评论 0

ゞ记忆︶ㄣ

文章 0 评论 0

JackDx

文章 0 评论 0

信远

文章 0 评论 0

yaoduoduo1995

文章 0 评论 0

霞映澄塘

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文