simd

simd

文章 0 浏览 6

使用 SSE 优化有限差分

我想知道是否可以使用 SSE (1,2,3,4,...) 来优化以下循环: // u and v are allocated through new double[size*size] for (int j = l; j < size-1; +…

一桥轻雨一伞开 2024-10-03 02:32:40 7 0

使用 SSE 内在函数将 4 点积存储到 C 中的连续数组中的最有效方法

我正在使用 SSE 内在函数优化 Intel x86 Nehalem 微架构的一些代码。 我的程序的一部分计算 4 个点积,并将每个结果添加到数组的连续块中的先前值。更…

谁许谁一生繁华 2024-10-01 17:27:44 12 0

如何使用 C 中的 SSE 内在函数计算单向量点积

我试图将两个向量相乘,其中一个向量的每个元素都乘以另一个向量的相同索引中的元素。然后我想对结果向量的所有元素求和以获得一个数字。例如,向量 {…

九八野马 2024-10-01 05:50:46 11 0

ARM Cortex-A8:VFP 和 NEON 有什么区别

在ARM Cortex-A8处理器中,我了解NEON是什么,它是一个SIMD协处理器。 但同时也是协处理器的VFP(矢量浮点)单元是否可以用作SIMD处理器呢?如果可以…

云裳 2024-09-30 18:28:04 13 0

SIMD 优化难题

我想使用 SIMD(SSE2 等)优化以下函数: int64_t fun(int64_t N, int size, int* p) { int64_t sum = 0; for(int i=1; i

温柔戏命师 2024-09-29 10:45:46 9 0

c++如何编写编译器可以轻松针对 SIMD 进行优化的代码?

我正在 Visual Studio 2008 中工作,在项目设置中我看到“激活扩展指令集”选项,我可以将其设置为“无”、“SSE”或“SSE2”, 因此编译器将尝试将指…

转身以后 2024-09-29 00:30:29 12 0

GCC 中用于除法的 SIMD (SSE) 指令

如果可能的话,我想使用 SSE 指令优化以下代码片段: /* * the data structure */ typedef struct v3d v3d; struct v3d { double x; double y; double…

旧时模样 2024-09-25 15:19:35 7 0

如何在 iPad A4 处理器上执行整数 SIMD 运算?

我觉得需要速度。双 for 循环正在降低我的 iPad 应用程序的性能。我需要SIMD。如何在 iPad A4 处理器上执行整数 SIMD 运算? 谢谢, 道格…

唯憾梦倾城 2024-09-25 12:34:31 8 0

如何使用NEON比较(大于或等于)指令?

一般如何使用 NEON 比较指令? 这是一个案例,我想使用大于或等于指令? 目前我有一个, int x; ... ... ... if(x >= 0) { .... } 在NEON中,我想以同…

只怪假的太真实 2024-09-24 23:16:50 11 0

SSE2内在函数:直接访问内存

许多 SSE 指令允许源操作数是 16 字节对齐的内存地址。例如,各种(拆)包指令。 PUNCKLBW 具有以下签名: PUNPCKLBW xmm1,xmm2/m128 现在这对于内在…

谜兔 2024-09-12 13:16:21 10 0

SSE 访问违规

我有代码: float *mu_x_ptr; __m128 *tmp; __m128 *mm_mu_x; mu_x_ptr = _aligned_malloc(4*sizeof(float), 16); mm_mu_x = (__m128*) mu_x_ptr; for…

薄荷梦 2024-09-12 10:06:37 7 0

上交所挤满的流通股上翻转标志

我正在寻找最有效的方法来翻转 SSE 寄存器中所有四个浮点数的符号。 我没有在英特尔架构软件开发手册中找到执行此操作的内在函数。以下是我已经尝试过…

凡间太子 2024-09-12 07:07:51 10 0

如何使用 NEON SIMD 合并 2 行元素?

我有一个 A = a1 a2 a3 a4 b1 b2 b3 b4 c1 c2 c3 c4 d1 d2 d3 d4 我有 2 行, float32x2_t a = a1 a2 float32x2_t b = b1 b2 从这些我如何得到 - floa…

野侃 2024-09-11 05:58:51 11 0

如何使用 Eigen,C++线性代数的模板库?

我有一个由矩阵组成的图像处理算法,我有自己的矩阵运算代码(乘法、逆...)。但我使用的处理器是ARM​​ Cortex-A8处理器,它有用于矢量化的NEON协处…

_蜘蛛 2024-09-10 00:10:58 12 0

如何在 ARM Cortex-a8 中使用乘法和累加内在函数?

如何使用GCC提供的乘累加内在函数? float32x4_t vmlaq_f32 (float32x4_t , float32x4_t , float32x4_t); 谁能解释一下我必须传递给这个函数的三个参…

就像说晚安 2024-09-09 15:58:39 8 0
更多

推荐作者

Promise

文章 0 评论 0

qq_lbRlsh

文章 0 评论 0

待"谢繁草

文章 0 评论 0

yy2010hell

文章 0 评论 0

漫无边际

文章 0 评论 0

傲娇萝莉攻

文章 0 评论 0

更多

友情链接

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文