第 2 页 - simd - 文江博客

投稿关注

simd

文章 0 浏览 6

ARM NEON：比较 128 位值

我感兴趣的是找到比较 Cortex-A9 内核（允许使用 VFP 指令）上 NEON 寄存器（例如 Q0 和 Q3）中存储的值的最快方法（最低周期数）。到目前为止，我有…

平生欢 2024-12-29 21:04:54 3 0

SIMD 的优先选择是始终摆脱分支吗？

如果您正在编写一些将由另一个程序运行的 SIMD 代码，那么摆脱分支以提高性能是否总是有利的？我听说即使只是为了避免 if/else 语句等而进行额外的操…

囍笑 2024-12-27 16:26:27 3 0

SIMD 在这种情况下表现如何？

我使用的引擎允许编写 SIMD 代码，并且执行速度很快。但只有一个块包含所有代码。我知道这段代码是在每个实体上同时独立运行的，但是当只有 1 件事发…

许你一世情深 2024-12-27 13:49:17 1 0

二进制图像上的快速像素计数 - ARM neon 内在函数 - iOS Dev

有人可以告诉我一个快速函数来计算二进制图像中白色像素的数量。我需要它用于 iOS 应用程序开发。我正在直接处理定义的图像的内存，因为 bool *imageD…

孤者何惧 2024-12-27 11:32:00 1 0

Intel x86 ISA 上的 _mm_load_ps 与 _mm_load_pd 与等

下面两行有什么区别？ __m128 x = _mm_load_ps((float *) ptr); __m128 y = _mm_load_pd((double *)ptr); 换句话说，为什么有这么多不同的_mm_load_xy…

清醇 2024-12-26 20:08:18 1 0

SSE比FPU慢？

我有一大段代码，其主体部分包含这段代码： result = (nx * m_Lx + ny * m_Ly + m_Lz) / sqrt(nx * nx + ny * ny + 1); 我已将其矢量化如下（一切都已…

冰之心 2024-12-26 11:56:12 2 0

ARM NEON 简单低通滤波器矢量化

我有一个简单的单极低通滤波器（用于参数平滑），可以通过以下公式进行解释： y[n] = (1-a) * y[n-1] + a * x[n] 如何在 ARM Neon 上有效矢量化这种情…

書生途 2024-12-25 03:48:00 2 0

这个 Delphi 6 位图修改代码可以用 SIMD 或其他方法加速吗？

我有一个可以实时修改位图的 Delphi 6 应用程序。目前，我正在使用下面所示的代码来进行快速亮度增强和对比度更改。如果操作只是加法或乘法，我可以看…

兔小萌 2024-12-23 06:43:23 1 0

如何在 XMM 寄存器之间移动 128 位值？

汇编中看似微不足道的问题：我想将整个 XMM0 寄存器复制到 XMM3。我已经尝试过 movdq xmm3, xmm0 ，但 MOVDQ 不能用于在两个 XMM 寄存器之间移动值。…

欲拥i 2024-12-23 04:10:43 2 0

为什么这段代码效率不高？

我想改进下一个代码，计算平均值： void calculateMeanStDev8x8Aux(cv::Mat* patch, int sx, int sy, int& mean, float& stdev) { unsigned sum=0; un…

转角预定愛 2024-12-21 20:13:30 1 0

AVX2 中的 _mm_alignr_epi8 (PALIGNR) 等效项

在 SSE3 中，PALIGNR 指令执行以下操作： PALIGNR 将目标操作数（第一个操作数）和源操作数（第二个操作数）连接成一个中间组合，以字节粒度将组合右…

彼岸花ソ最美的依靠 2024-12-21 14:12:44 2 0

添加 SSE 寄存器的组件

我想添加 SSE 寄存器的四个组件以获得单个浮点数。我现在是这样做的： float a[4]; _mm_storeu_ps(a, foo128); float x = a[0] + a[1] + a[2] + a[3];…

殤城〤 2024-12-21 08:52:56 2 0

NEON 向量化无符号字节的乘积之和： (a[i]-int1) * (b[i]-int2)

我需要改进循环，因为我的应用程序调用了数千次。我想我需要用 Neon 来做这件事，但我不知道从哪里开始。假设/前提条件： w 始终为 320（16/32 的倍…

风和你 2024-12-20 21:43:05 1 0

C# 向量化数组加法

是否有办法以 SIMD 方式“矢量化”数组中元素的添加？例如，我想将：转换 var a = new[] { 1, 2, 3, 4 }; var b = new[] { 1, 2, 3, 4 }; var c = n…

夏至、离别 2024-12-17 06:54:31 3 0

SSE 乘法 16 x uint8_t

我想用 SSE4 将 __m128i 对象与 16 个无符号 8 位整数相乘，但我只能找到用于乘法 16 位整数的内在函数。没有诸如_mm_mult_epi8之类的东西吗？…

梦过后 2024-12-16 23:02:32 1 0

共 10 页
上一页
1
2
3
4
5
下一页

友情链接

文江博客