C++ 中 SSE/AVX 的 x86 CPU 调度
我有一个算法,该算法受益于 SSE(2) 内在函数的手动优化。此外,该算法未来还将能够受益于256位AVX寄存器。 最佳方法是什么 我的问题是在编译时注册我…
改善医学图像重建实施中的局部性并减少缓存污染
我正在为我的大学进行一项与医疗用途图像重建算法相关的研究。 我陷入了长达 3 周的困境,我需要提高以下代码的性能: for (lor=lor0[mypid] lor <=…
近似 log10[x^k0 + k1]
问候。我试图近似函数 Log10[x^k0 + k1],其中 .21 < k0< 21、0< k1< ~2000,x为整数<2000 2^14。 k0 & k1 是常数。出于实际目的,您可以假…
gcc 中的 SSE(SIMD 扩展)支持
我看到如下代码: #include "stdio.h" #define VECTOR_SIZE 4 typedef float v4sf __attribute__ ((vector_size(sizeof(float)*VECTOR_SIZE))) // vec…
如何让下面的代码更快
int u1, u2 unsigned long elm1[20], _mulpre[16][20], res1[40], res2[40] 64 bits long res1, res2 initialized to zero. l = 60 while (l) { for (…
SSE2:双精度对数函数
我需要日志函数的开源(无许可证限制)实现,带有签名的东西 __m128d _mm_log_pd(__m128d) 可以在英特尔短向量数学库(ICC的一部分)中找到,但ICC既…
SIMD 代码与标量代码
以下循环执行数百次。 <代码> elma 和 elmc 都是无符号长(64 位)数组,res1 和 res2 也是如此。 unsigned long simdstore[2] __m128i *p, simda…
64 位特定 simd 内在函数
我在 SSE2 中使用以下联合声明。 typedef unsigned long uli typedef uli v4si __attribute__ ((vector_size(16))) typedef union { v4si v uli data[…
将 MMX/SSE 指令移植到 AltiVec
我在 ASM 方面的经验极其有限,在 SIMD 方面的经验就更少了。 但碰巧我有以下 MMX/SSE 优化代码,我想将其移植到 AltiVec 指令以在 PPC/Cell 处理器上…
从 128 位 SSE 向量加载和提取 32 位整数值的最有效方法是什么?
我正在尝试使用 SSE 内在函数来优化我的代码,但遇到了一个问题,在完成 SSE 内在函数操作以获得我想要的结果后,我不知道从向量中提取整数值的好方法…
使用 SSE 优化有限差分
我想知道是否可以使用 SSE (1,2,3,4,...) 来优化以下循环: // u and v are allocated through new double[size*size] for (int j = l j < size-1 +…
使用 SSE 内在函数将 4 点积存储到 C 中的连续数组中的最有效方法
我正在使用 SSE 内在函数优化 Intel x86 Nehalem 微架构的一些代码。 我的程序的一部分计算 4 个点积,并将每个结果添加到数组的连续块中的先前值。更…
ARM Cortex-A8:VFP 和 NEON 有什么区别
在ARM Cortex-A8处理器中,我了解NEON是什么,它是一个SIMD协处理器。 但同时也是协处理器的VFP(矢量浮点)单元是否可以用作SIMD处理器呢?如果可以…