第 2 页 - neon - 文江博客

投稿关注

neon

文章 0 浏览 5

Arm neon 上的 Altivec vec_all_gt 等效项

我正在将应用程序从 Altivec 移植到 Neon。我在 Altivec 中看到很多返回标量值的内在函数。 ARM 上有这样的内在函数吗？例如 vec_all_gt…

我还不会笑 2025-01-16 05:58:13 4 0

使用 SIMD (ARM) 的快速位矩阵 (64x64) 转置算法

我想了解是否有一种快速方法可以使用 ARM SIMD 指令进行矩阵转置（64x64 位）。我尝试探索ARM SIMD的VTRN指令，但不确定它在这种情况下的有效应用。 …

宣告ˉ结束 2025-01-15 15:51:34 3 0

x86-64 SSE2 整数 SIMD GCC 内置函数是否有 ARM64 等效项？

我尝试使用 AMM 算法（近似矩阵乘法；在 Apple 的 M1 上），该算法完全基于速度并使用下面列出的 x86 内置函数。由于使用 x86 虚拟机会减慢算法中的几…

陪我终i 2025-01-15 03:49:24 4 0

使用 neon 内在函数处理奇数元素

我是霓虹灯内在函数的新手。我有两个包含 99 个元素的数组，我试图使用 neon 内在函数按元素添加它们。由于99不是8,16或32的倍数。可以处理96个元素如…

撩起发的微风 2025-01-13 09:38:15 6 0

arm_neon.h 是如何生成或维护的？

Android NDK中有arm_neon.h： $ANDROID_NDK_ROOT/toolchains/llvm/prebuilt/linux-x86_64/lib64/clang/9.0.9/include/arm_neon.h arm_neon.h 内容非常…

淡笑忘祈一世凡恋 2025-01-13 00:33:47 5 0

使用 NEON 内在函数转置 8x8 浮点矩阵

我有一个程序需要对 8x8 float32 矩阵多次运行转置操作。我想使用 NEON SIMD 内在函数转置它们。我知道数组将始终包含 8x8 浮点元素。我有一个基线非…

枯叶蝶 2025-01-09 17:44:13 5 0

ARM 汇编器 NEON - 提高性能

我已将部分算法从 C 转换为 ARM 汇编器（使用 NEON 指令），但现在它比原来的 C 代码慢 2 倍。我怎样才能提高性能？目标是 ARM Cortex-A9。该算法…

是你 2025-01-08 05:48:56 7 0

ARM NEON 汇编器 - 使用与使用理解

我是汇编程序和 NEON 编程的新手。我的任务是使用 NEON 指令将算法的一部分从 C 转换为 ARM 汇编器。该算法采用一个 int32 数组，从该数组加载不同…

与之呼应 2025-01-06 06:55:14 9 0

如何解决错误指令“vadd.i16 q0,q0,q0”当尝试检查 gcc 的 neon 指令时

Checking gcc supports failed for neon instruction vadd.i16 q0,q0,q0 test.c int main () { __asm__("vadd.i16 q0, q0, q0"); return 0; } arm-lin…

放赐 2025-01-05 10:07:58 5 0

使用 SIMD 指令进行平滑样条

我在代码中使用这种类型的样条，我想知道该算法是否可以受益来自SIMD指令的使用。（ARM 上的 NEON）使用的代码是以下源代码的 C 翻译（Fortran 语言…

后eg是否自 2025-01-03 08:47:07 4 0

无符号字符图像上的快速高斯模糊 - ARM Neon Intrinsics - iOS Dev

有人可以告诉我一个使用 5x5 掩模查找图像高斯模糊的快速函数吗？我需要它用于 iOS 应用程序开发。我直接处理定义为的图像的内存， unsigned char *im…

流年里的时光 2025-01-02 19:59:59 6 0

ARM NEON：比较 128 位值

我感兴趣的是找到比较 Cortex-A9 内核（允许使用 VFP 指令）上 NEON 寄存器（例如 Q0 和 Q3）中存储的值的最快方法（最低周期数）。到目前为止，我有…

平生欢 2024-12-29 21:04:54 7 0

使用 NEON/ARM 加载 8 位值

我正在尝试将 char 值数组加载到 NEON 寄存器中，然后将它们视为 16 位或 32 位整数值。所以像这样的事情...... void SubVector(short* c, const unsi…

活泼老夫 2024-12-29 12:14:23 3 0

LLVM GCC 4.2 中内联汇编的奇怪编译

我正在尝试优化以下 C 宏： rotate(v0, v1) a0 = v0, b0 = v1, v0 = a0*c - b0*s, v1 = a0*s + b0*c 其中 Cortex-A8 处理器的所有变量都是双精度。内…

乙白 2024-12-27 17:56:57 6 0

在 Cortex A8 上启用 NEON，并将 fpu 设置为 SoftVFP 或无

我正在尝试使用 RVDS 4.0 为 Cortex A8 构建可执行文件。我的代码使用 NEON，但我想将 fpu 选项设置为 none 或 SoftVFP。 ARM 网站提到，当 fpu 设置…

孤城病女 2024-12-27 14:45:48 4 0

共 6 页
上一页
1
2
3
4
5
下一页

友情链接

文江博客