sse2

sse2

文章 0 浏览 4

将 SSE2 迁移到 Arm NEON 内在函数

我在 SSE2 intrinsincs 中有以下代码。它处理来自 Kinect 的输入。 __m128i md = _mm_setr_epi16((r0>5), ((r1>2) ), ((r2>7) ), ((r4>4) ), ((r5>1) …

甜心小果奶 2024-12-06 10:05:45 1 0

使用内在函数的 SSE2 汇编溢出

我是 SSE 和 SSE2 的新手,我编写了一个小型 C 示例(分配两个计数器,一个计数器增加,另一个计数器减少,而不是将两个计数器相加),它按预期工作。…

廻憶裏菂餘溫 2024-11-29 01:56:48 0 0

Visual Studio 2010 和 SSE 4.2

我想知道,需要在 Visual Studio 2010 中设置什么才能启用 SSE 4.2?我想使用它,因为优化了 POPCNT... 我该如何测试,如果所有设置都正常? 很好 ,…

一向肩并 2024-11-18 19:40:11 3 0

SSE2 双倍乘法比标准乘法慢

我想知道为什么以下带有 SSE2 指令的代码执行乘法的速度比标准 C++ 实现慢。 代码如下: m_win = (double*)_aligned_malloc(size*sizeof(double), 16)…

极度宠爱 2024-11-18 04:41:15 3 0

哪一个更快?

我在 gcc 4.4.3 中使用 SSE2。在我的程序中,我需要使用 128 位 SIMD 寄存器的至少 (0 - 7) 8 位。请建议我可以快速检索 8 位的方法。 我尝试使用 _mm…

梦毁影碎の 2024-11-16 18:48:55 3 0

严格别名和 __m128i 类型

当使用 SSE2 内部函数执行按位运算时,必须将指针从 int* 转换为 __m128i*。这段代码是否违反了严格的别名规则? void bit_twiddling_func(int size, …

沉睡月亮 2024-11-16 18:38:13 2 0

调整麻省理工学院的比特计数算法来并行计算单词数?

我想使用众所周知的 MIT 位计数算法的一个版本,使用 SSE2 指令来计算 Conway 生命游戏中的邻居。 这是 c 中的 MIT 位计数,扩展为 count bitcounts >…

初相遇 2024-11-16 10:19:44 4 0

对有符号整数内的元组进行排序

我使用 SSE2 将 16+16 位元组排序为 32 位整数。只有用于比较和最小值/最大值的有符号整数指令。我对较高部分的顺序没有问题,因为它只是一个散列。但…

爱要勇敢去追 2024-10-31 05:36:30 5 0

GCC 对 XMM 寄存器的支持严重损坏?

每当我检查 GCC 生成的汇编代码中使用 __m128i 类型的代码时,我都会看到看起来像是一场灾难。有大量的冗余指令没有任何作用。 然而,作为一名汇编程…

恏ㄋ傷疤忘ㄋ疼 2024-10-21 21:48:47 4 0

sse/sse2 双矩阵浮点向量乘法

我必须使用 sse/sse2 实现矩阵向量乘法。 向量和矩阵很大。 矩阵是双精度的,向量是浮点的。 关键是我必须在浮点数上进行的所有计算 - 当我从矩阵获取…

素年丶 2024-10-19 12:45:11 6 0

使用TBB用很少的指令(SSE2,SSE4)优化循环

我有一个简单的图像处理相关算法。 简而言之,浮点数图像(平均值)减去 8 位图像 然后将结果保存到浮点图像(dest) 该函数主要由内在函数编写。 我…

何以畏孤独 2024-10-16 20:53:35 6 0

如何让下面的代码更快

int u1, u2; unsigned long elm1[20], _mulpre[16][20], res1[40], res2[40]; 64 bits long res1, res2 initialized to zero. l = 60; while (l) { fo…

浅笑轻吟梦一曲 2024-10-08 09:19:09 12 0

SIMD 代码与标量代码

以下循环执行数百次。 elma 和 elmc 都是无符号长(64 位)数组,res1 和 res2 也是如此。 unsigned long simdstore[2]; __m128i *p, simda, simdb, s…

梦纸 2024-10-07 03:19:24 9 0

64 位特定 simd 内在函数

我在 SSE2 中使用以下联合声明。 typedef unsigned long uli; typedef uli v4si __attribute__ ((vector_size(16))); typedef union { v4si v; uli da…

帅冕 2024-10-07 00:31:09 10 0

boost::shared_array 和对齐内存分配

在 Visual C++ 中,我尝试动态分配一些 16 字节对齐的内存,以便我可以使用需要内存对齐的 SSE2 函数。现在这就是我分配内存的方式: boost::shared_a…

纵性 2024-09-28 23:59:57 7 0
更多

推荐作者

隔纱相望

文章 0 评论 0

昵称有卵用

文章 0 评论 0

梨涡

文章 0 评论 0

蓝咒

文章 0 评论 0

白芷

文章 0 评论 0

樱娆

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文