neon

neon

文章 0 浏览 5

Arm neon 上的 Altivec vec_all_gt 等效项

我正在将应用程序从 Altivec 移植到 Neon。 我在 Altivec 中看到很多返回标量值的内在函数。 ARM 上有这样的内在函数吗? 例如 vec_all_gt…

我还不会笑 2025-01-16 05:58:13 4 0

使用 SIMD (ARM) 的快速位矩阵 (64x64) 转置算法

我想了解是否有一种快速方法可以使用 ARM SIMD 指令进行矩阵转置(64x64 位)。 我尝试探索ARM SIMD的VTRN指令,但不确定它在这种情况下的有效应用。 …

宣告ˉ结束 2025-01-15 15:51:34 3 0

x86-64 SSE2 整数 SIMD GCC 内置函数是否有 ARM64 等效项?

我尝试使用 AMM 算法(近似矩阵乘法;在 Apple 的 M1 上),该算法完全基于速度并使用下面列出的 x86 内置函数。由于使用 x86 虚拟机会减慢算法中的几…

陪我终i 2025-01-15 03:49:24 4 0

使用 neon 内在函数处理奇数元素

我是霓虹灯内在函数的新手。我有两个包含 99 个元素的数组,我试图使用 neon 内在函数按元素添加它们。由于99不是8,16或32的倍数。可以处理96个元素如…

撩起发的微风 2025-01-13 09:38:15 6 0

arm_neon.h 是如何生成或维护的?

Android NDK中有arm_neon.h: $ANDROID_NDK_ROOT/toolchains/llvm/prebuilt/linux-x86_64/lib64/clang/9.0.9/include/arm_neon.h arm_neon.h 内容非常…

淡笑忘祈一世凡恋 2025-01-13 00:33:47 5 0

使用 NEON 内在函数转置 8x8 浮点矩阵

我有一个程序需要对 8x8 float32 矩阵多次运行转置操作。我想使用 NEON SIMD 内在函数转置它们。我知道数组将始终包含 8x8 浮点元素。我有一个基线非…

枯叶蝶 2025-01-09 17:44:13 5 0

ARM 汇编器 NEON - 提高性能

我已将部分算法从 C 转换为 ARM 汇编器(使用 NEON 指令), 但现在它比原来的 C 代码慢 2 倍。 我怎样才能提高性能? 目标是 ARM Cortex-A9。 该算法…

是你 2025-01-08 05:48:56 7 0

ARM NEON 汇编器 - 使用与使用理解

我是汇编程序和 NEON 编程的新手。 我的任务是使用 NEON 指令将算法的一部分从 C 转换为 ARM 汇编器。 该算法采用一个 int32 数组,从该数组加载不同…

与之呼应 2025-01-06 06:55:14 9 0

如何解决错误指令“vadd.i16 q0,q0,q0”当尝试检查 gcc 的 neon 指令时

Checking gcc supports failed for neon instruction vadd.i16 q0,q0,q0 test.c int main () { __asm__("vadd.i16 q0, q0, q0"); return 0; } arm-lin…

放赐 2025-01-05 10:07:58 5 0

使用 SIMD 指令进行平滑样条

我在代码中使用这种类型的样条,我想知道该算法是否可以受益来自SIMD指令的使用。 (ARM 上的 NEON)使用的代码是以下源代码的 C 翻译(Fortran 语言…

后eg是否自 2025-01-03 08:47:07 4 0

无符号字符图像上的快速高斯模糊 - ARM Neon Intrinsics - iOS Dev

有人可以告诉我一个使用 5x5 掩模查找图像高斯模糊的快速函数吗?我需要它用于 iOS 应用程序开发。我直接处理定义为的图像的内存, unsigned char *im…

流年里的时光 2025-01-02 19:59:59 6 0

ARM NEON:比较 128 位值

我感兴趣的是找到比较 Cortex-A9 内核(允许使用 VFP 指令)上 NEON 寄存器(例如 Q0 和 Q3)中存储的值的最快方法(最低周期数)。 到目前为止,我有…

平生欢 2024-12-29 21:04:54 7 0

使用 NEON/ARM 加载 8 位值

我正在尝试将 char 值数组加载到 NEON 寄存器中,然后将它们视为 16 位或 32 位整数值。所以像这样的事情...... void SubVector(short* c, const unsi…

活泼老夫 2024-12-29 12:14:23 3 0

LLVM GCC 4.2 中内联汇编的奇怪编译

我正在尝试优化以下 C 宏: rotate(v0, v1) a0 = v0, b0 = v1, v0 = a0*c - b0*s, v1 = a0*s + b0*c 其中 Cortex-A8 处理器的所有变量都是双精度。 内…

乙白 2024-12-27 17:56:57 6 0

在 Cortex A8 上启用 NEON,并将 fpu 设置为 SoftVFP 或无

我正在尝试使用 RVDS 4.0 为 Cortex A8 构建可执行文件。我的代码使用 NEON,但我想将 fpu 选项设置为 none 或 SoftVFP。 ARM 网站提到,当 fpu 设置…

孤城病女 2024-12-27 14:45:48 4 0
更多

推荐作者

十二

文章 0 评论 0

飞烟轻若梦

文章 0 评论 0

OPleyuhuo

文章 0 评论 0

wxb0109

文章 0 评论 0

旧城空念

文章 0 评论 0

-小熊_

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文