sse2

文章 0 浏览 4

将 SSE2 迁移到 Arm NEON 内在函数

我在 SSE2 intrinsincs 中有以下代码。它处理来自 Kinect 的输入。 __m128i md = _mm_setr_epi16((r0>5), ((r1>2) ), ((r2>7) ), ((r4>4) ), ((r5>1) …

甜心小果奶 2024-12-06 10:05:45 1 0

使用内在函数的 SSE2 汇编溢出

我是 SSE 和 SSE2 的新手，我编写了一个小型 C 示例（分配两个计数器，一个计数器增加，另一个计数器减少，而不是将两个计数器相加），它按预期工作。…

廻憶裏菂餘溫 2024-11-29 01:56:48 0 0

Visual Studio 2010 和 SSE 4.2

我想知道，需要在 Visual Studio 2010 中设置什么才能启用 SSE 4.2？我想使用它，因为优化了 POPCNT... 我该如何测试，如果所有设置都正常？很好，…

一向肩并 2024-11-18 19:40:11 3 0

SSE2 双倍乘法比标准乘法慢

我想知道为什么以下带有 SSE2 指令的代码执行乘法的速度比标准 C++ 实现慢。代码如下： m_win = (double*)_aligned_malloc(size*sizeof(double), 16)…

极度宠爱 2024-11-18 04:41:15 3 0

哪一个更快？

我在 gcc 4.4.3 中使用 SSE2。在我的程序中，我需要使用 128 位 SIMD 寄存器的至少 (0 - 7) 8 位。请建议我可以快速检索 8 位的方法。我尝试使用 _mm…

梦毁影碎の 2024-11-16 18:48:55 3 0

严格别名和 __m128i 类型

当使用 SSE2 内部函数执行按位运算时，必须将指针从 int* 转换为 __m128i*。这段代码是否违反了严格的别名规则？ void bit_twiddling_func(int size, …

沉睡月亮 2024-11-16 18:38:13 2 0

调整麻省理工学院的比特计数算法来并行计算单词数？

我想使用众所周知的 MIT 位计数算法的一个版本，使用 SSE2 指令来计算 Conway 生命游戏中的邻居。这是 c 中的 MIT 位计数，扩展为 count bitcounts >…

初相遇 2024-11-16 10:19:44 4 0

对有符号整数内的元组进行排序

我使用 SSE2 将 16+16 位元组排序为 32 位整数。只有用于比较和最小值/最大值的有符号整数指令。我对较高部分的顺序没有问题，因为它只是一个散列。但…

爱要勇敢去追 2024-10-31 05:36:30 5 0

GCC 对 XMM 寄存器的支持严重损坏？

每当我检查 GCC 生成的汇编代码中使用 __m128i 类型的代码时，我都会看到看起来像是一场灾难。有大量的冗余指令没有任何作用。然而，作为一名汇编程…

恏ㄋ傷疤忘ㄋ疼 2024-10-21 21:48:47 4 0

sse/sse2 双矩阵浮点向量乘法

我必须使用 sse/sse2 实现矩阵向量乘法。向量和矩阵很大。矩阵是双精度的，向量是浮点的。关键是我必须在浮点数上进行的所有计算 - 当我从矩阵获取…

素年丶 2024-10-19 12:45:11 6 0

使用TBB用很少的指令（SSE2，SSE4）优化循环

我有一个简单的图像处理相关算法。简而言之，浮点数图像（平均值）减去 8 位图像然后将结果保存到浮点图像（dest）该函数主要由内在函数编写。我…

何以畏孤独 2024-10-16 20:53:35 6 0

如何让下面的代码更快

int u1, u2; unsigned long elm1[20], _mulpre[16][20], res1[40], res2[40]; 64 bits long res1, res2 initialized to zero. l = 60; while (l) { fo…

浅笑轻吟梦一曲 2024-10-08 09:19:09 12 0

SIMD 代码与标量代码

以下循环执行数百次。 elma 和 elmc 都是无符号长（64 位）数组，res1 和 res2 也是如此。 unsigned long simdstore[2]; __m128i *p, simda, simdb, s…

梦纸 2024-10-07 03:19:24 9 0

64 位特定 simd 内在函数

我在 SSE2 中使用以下联合声明。 typedef unsigned long uli; typedef uli v4si __attribute__ ((vector_size(16))); typedef union { v4si v; uli da…

帅冕 2024-10-07 00:31:09 10 0

boost::shared_array 和对齐内存分配

在 Visual C++ 中，我尝试动态分配一些 16 字节对齐的内存，以便我可以使用需要内存对齐的 SSE2 函数。现在这就是我分配内存的方式： boost::shared_a…

纵性 2024-09-28 23:59:57 7 0

共 2 页
1
2
下一页

友情链接

文江博客