Arm neon 上的 Altivec vec_all_gt 等效项
我正在将应用程序从 Altivec 移植到 Neon。 我在 Altivec 中看到很多返回标量值的内在函数。 ARM 上有这样的内在函数吗? 例如 vec_all_gt…
使用 SIMD (ARM) 的快速位矩阵 (64x64) 转置算法
我想了解是否有一种快速方法可以使用 ARM SIMD 指令进行矩阵转置(64x64 位)。 我尝试探索ARM SIMD的VTRN指令,但不确定它在这种情况下的有效应用。 …
x86-64 SSE2 整数 SIMD GCC 内置函数是否有 ARM64 等效项?
我尝试使用 AMM 算法(近似矩阵乘法;在 Apple 的 M1 上),该算法完全基于速度并使用下面列出的 x86 内置函数。由于使用 x86 虚拟机会减慢算法中的几…
arm_neon.h 是如何生成或维护的?
Android NDK中有arm_neon.h: $ANDROID_NDK_ROOT/toolchains/llvm/prebuilt/linux-x86_64/lib64/clang/9.0.9/include/arm_neon.h arm_neon.h 内容非常…
使用 NEON 内在函数转置 8x8 浮点矩阵
我有一个程序需要对 8x8 float32 矩阵多次运行转置操作。我想使用 NEON SIMD 内在函数转置它们。我知道数组将始终包含 8x8 浮点元素。我有一个基线非…
ARM 汇编器 NEON - 提高性能
我已将部分算法从 C 转换为 ARM 汇编器(使用 NEON 指令), 但现在它比原来的 C 代码慢 2 倍。 我怎样才能提高性能? 目标是 ARM Cortex-A9。 该算法…
ARM NEON 汇编器 - 使用与使用理解
我是汇编程序和 NEON 编程的新手。 我的任务是使用 NEON 指令将算法的一部分从 C 转换为 ARM 汇编器。 该算法采用一个 int32 数组,从该数组加载不同…
如何解决错误指令“vadd.i16 q0,q0,q0”当尝试检查 gcc 的 neon 指令时
Checking gcc supports failed for neon instruction vadd.i16 q0,q0,q0 test.c int main () { __asm__("vadd.i16 q0, q0, q0"); return 0; } arm-lin…
无符号字符图像上的快速高斯模糊 - ARM Neon Intrinsics - iOS Dev
有人可以告诉我一个使用 5x5 掩模查找图像高斯模糊的快速函数吗?我需要它用于 iOS 应用程序开发。我直接处理定义为的图像的内存, unsigned char *im…
ARM NEON:比较 128 位值
我感兴趣的是找到比较 Cortex-A9 内核(允许使用 VFP 指令)上 NEON 寄存器(例如 Q0 和 Q3)中存储的值的最快方法(最低周期数)。 到目前为止,我有…
使用 NEON/ARM 加载 8 位值
我正在尝试将 char 值数组加载到 NEON 寄存器中,然后将它们视为 16 位或 32 位整数值。所以像这样的事情...... void SubVector(short* c, const unsi…
LLVM GCC 4.2 中内联汇编的奇怪编译
我正在尝试优化以下 C 宏: rotate(v0, v1) a0 = v0, b0 = v1, v0 = a0*c - b0*s, v1 = a0*s + b0*c 其中 Cortex-A8 处理器的所有变量都是双精度。 内…
在 Cortex A8 上启用 NEON,并将 fpu 设置为 SoftVFP 或无
我正在尝试使用 RVDS 4.0 为 Cortex A8 构建可执行文件。我的代码使用 NEON,但我想将 fpu 选项设置为 none 或 SoftVFP。 ARM 网站提到,当 fpu 设置…