第 7 页 - simd - 文江博客

simd

文章 0 浏览 6

使用 SSE 优化有限差分

我想知道是否可以使用 SSE (1,2,3,4,...) 来优化以下循环： // u and v are allocated through new double[size*size] for (int j = l; j < size-1; +…

一桥轻雨一伞开 2024-10-03 02:32:40 7 0

使用 SSE 内在函数将 4 点积存储到 C 中的连续数组中的最有效方法

我正在使用 SSE 内在函数优化 Intel x86 Nehalem 微架构的一些代码。我的程序的一部分计算 4 个点积，并将每个结果添加到数组的连续块中的先前值。更…

谁许谁一生繁华 2024-10-01 17:27:44 12 0

如何使用 C 中的 SSE 内在函数计算单向量点积

我试图将两个向量相乘，其中一个向量的每个元素都乘以另一个向量的相同索引中的元素。然后我想对结果向量的所有元素求和以获得一个数字。例如，向量 {…

九八野马 2024-10-01 05:50:46 11 0

ARM Cortex-A8：VFP 和 NEON 有什么区别

在ARM Cortex-A8处理器中，我了解NEON是什么，它是一个SIMD协处理器。但同时也是协处理器的VFP（矢量浮点）单元是否可以用作SIMD处理器呢？如果可以…

云裳 2024-09-30 18:28:04 13 0

SIMD 优化难题

我想使用 SIMD（SSE2 等）优化以下函数： int64_t fun(int64_t N, int size, int* p) { int64_t sum = 0; for(int i=1; i

温柔戏命师 2024-09-29 10:45:46 9 0

c++如何编写编译器可以轻松针对 SIMD 进行优化的代码？

我正在 Visual Studio 2008 中工作，在项目设置中我看到“激活扩展指令集”选项，我可以将其设置为“无”、“SSE”或“SSE2”，因此编译器将尝试将指…

转身以后 2024-09-29 00:30:29 12 0

GCC 中用于除法的 SIMD (SSE) 指令

如果可能的话，我想使用 SSE 指令优化以下代码片段： /* * the data structure */ typedef struct v3d v3d; struct v3d { double x; double y; double…

旧时模样 2024-09-25 15:19:35 7 0

如何在 iPad A4 处理器上执行整数 SIMD 运算？

我觉得需要速度。双 for 循环正在降低我的 iPad 应用程序的性能。我需要SIMD。如何在 iPad A4 处理器上执行整数 SIMD 运算？谢谢，道格…

唯憾梦倾城 2024-09-25 12:34:31 8 0

如何使用NEON比较（大于或等于）指令？

一般如何使用 NEON 比较指令？这是一个案例，我想使用大于或等于指令？目前我有一个， int x; ... ... ... if(x >= 0) { .... } 在NEON中，我想以同…

只怪假的太真实 2024-09-24 23:16:50 11 0

SSE2内在函数：直接访问内存

许多 SSE 指令允许源操作数是 16 字节对齐的内存地址。例如，各种（拆）包指令。 PUNCKLBW 具有以下签名： PUNPCKLBW xmm1，xmm2/m128 现在这对于内在…

谜兔 2024-09-12 13:16:21 10 0

SSE 访问违规

我有代码： float *mu_x_ptr; __m128 *tmp; __m128 *mm_mu_x; mu_x_ptr = _aligned_malloc(4*sizeof(float), 16); mm_mu_x = (__m128*) mu_x_ptr; for…

薄荷梦 2024-09-12 10:06:37 7 0

上交所挤满的流通股上翻转标志

我正在寻找最有效的方法来翻转 SSE 寄存器中所有四个浮点数的符号。我没有在英特尔架构软件开发手册中找到执行此操作的内在函数。以下是我已经尝试过…

凡间太子 2024-09-12 07:07:51 10 0

如何使用 NEON SIMD 合并 2 行元素？

我有一个 A = a1 a2 a3 a4 b1 b2 b3 b4 c1 c2 c3 c4 d1 d2 d3 d4 我有 2 行， float32x2_t a = a1 a2 float32x2_t b = b1 b2 从这些我如何得到 - floa…

野侃 2024-09-11 05:58:51 11 0

如何使用 Eigen，C++线性代数的模板库？

我有一个由矩阵组成的图像处理算法，我有自己的矩阵运算代码（乘法、逆...）。但我使用的处理器是ARM Cortex-A8处理器，它有用于矢量化的NEON协处…

_蜘蛛 2024-09-10 00:10:58 12 0

如何在 ARM Cortex-a8 中使用乘法和累加内在函数？

如何使用GCC提供的乘累加内在函数？ float32x4_t vmlaq_f32 (float32x4_t , float32x4_t , float32x4_t); 谁能解释一下我必须传递给这个函数的三个参…

就像说晚安 2024-09-09 15:58:39 8 0

共 10 页
上一页
5
6
7
8
9
下一页

关注

友情链接

文江博客

simd

使用 SSE 优化有限差分

使用 SSE 内在函数将 4 点积存储到 C 中的连续数组中的最有效方法

如何使用 C 中的 SSE 内在函数计算单向量点积

ARM Cortex-A8：VFP 和 NEON 有什么区别

SIMD 优化难题

c++如何编写编译器可以轻松针对 SIMD 进行优化的代码？

GCC 中用于除法的 SIMD (SSE) 指令

如何在 iPad A4 处理器上执行整数 SIMD 运算？

如何使用NEON比较（大于或等于）指令？

SSE2内在函数：直接访问内存

SSE 访问违规

上交所挤满的流通股上翻转标志

如何使用 NEON SIMD 合并 2 行元素？

如何使用 Eigen，C++线性代数的模板库？

如何在 ARM Cortex-a8 中使用乘法和累加内在函数？

热门标签

推荐作者

Promise

qq_lbRlsh

待＂谢繁草

yy2010hell

漫无边际

傲娇萝莉攻

友情链接