neon

文章 0 浏览 5

Aarch64霓虹灯和SVE的软件优化指南

有ARM软件优化指南（例如， https://developer.arm.arm.arm.arm.com/documentation/documentation/documentation/swog309707070707070707070707070707…

腻橙味 2025-02-10 00:36:47 2 0

此LD1＆＃x9; {v4.16b -v7.16b}，[x10]是什么样的汇编指令？

以下组件指令是Aarch64霓虹灯 / ASIMD组装代码。 ld1 {v4.16b - v7.16b}, [x10] 并发现了一些相关的页面关于LD1指令。但是，没有关于使用LD1组装指令…

夢归不見 2025-02-09 15:25:55 1 0

霓虹灯：用标量值执行矢量乘法

嗨，我是霓虹灯编程的新手。寻找具有标量值的向量乘法。对于添加两个向量，我能够使用以下代码执行。 void add(float* dst, float* src1, float* sr…

追风人 2025-02-09 03:05:40 0 0

Coretex A-53：256位矢量

以下是Cortex A53嵌入式目标中CPU的信息。我怎么知道这款CPU支持256位Vectoer（例如Float32x8），谢谢，谢谢 Zvika sidekiq@z3u:~$ cat /proc/cpuin…

小兔几 2025-02-08 23:05:23 1 0

将霓虹灯向量寄存器存储到内存

这似乎是一个愚蠢的问题，但我无法为生活做出解决。我有一个像缓冲区一样； let result_buff: &[u8] 而且我有一些代码，例如 let anded_value: uint8…

寂寞笑我太脆弱 2025-02-06 19:36:10 2 0

霓虹灯：掉期float32x4中的4个标量

我使用以下代码在Float32x4_t向量中交换4个标量。 {1,2,3,4} - ＆gt; {4,3,2,1} float32x4_t Vec = {1,2,3,4}; float32x4_t Rev = vrev64q_f32 (Vec);…

陌上青苔 2025-02-06 15:26:30 1 0

从ARM NEON到Intel Interins，以获得8x UINT8_T的绝对差异的总和

我正在尝试使用ARM NEON INTENSICS转换一些代码，以使用Intel Interinsics。我立即被卡住了，并试图找到适当的英特尔内在物质来替代霓虹灯内在的。 M…

庆幸我还是我 2025-02-04 04:09:22 2 0

如何优化通过霓虹灯内在的图像添加填充的功能？

我是霓虹灯的新手，尽管我可以进行一些处理，但我在某些基本概念上缺乏知识而挣扎，尤其是在优化2D阵列方面。 uint8_t** add_padding(uint8_t** img,i…

如痴如狂 2025-02-03 03:56:16 1 0

如何在64位RaspberryPi4运行Linux（使用GCC或CLANG）上使用NEON固有编译C代码？

问：应使用哪些编译器选项与霓虹灯固有编译C代码使用#include＆lt; arm_neon.h＆gt;在Raspberry-Pi4（Cortex-A72，Neon-FP-ARMV8）上运行64位Linux O…

云裳 2025-01-31 06:07:34 4 0

我如何在霓虹灯内部进行指针（而不是int/float）进行矢量操作？

我有以下代码： // int8_t* dout[4]; uint32x4_t ones = vdupq_n_u32(1); uint32x4_t addr = vaddq_u32(vld1q_u32((uint32_t*)dout), ones); vst1q_u3…

燕归巢 2025-01-28 11:28:24 1 0

在不同的ARM64微构造上优化FMA序列

为了优化大量使用的内部循环（Winograd域中的3x3xn张量卷积），我通过使用最大霓虹灯寄存器（32）（32）并尝试将其读取为少的系数/数据，而与算术操作…

金兰素衣 2025-01-26 19:35:55 1 0

有效计算锤重

我在Apple M1处理器上。我要做的是有效地计入Rust的大炭阵列中的1位。我查找了手臂霓虹灯的说明，我想我可以通过CNT指令（每8位块为1个），然后添加8…

何以笙箫默 2025-01-24 09:07:50 3 0

ARM 汇编：有没有办法移动整个 NEON 寄存器？

我想将两个，64位整数加载到一个128位霓虹灯寄存器中，然后使用一些正确的换档函数，从本质上讲，将两者加在一起。我知道（u | s）SHR 和（u | s）shl…

烟酉 2025-01-20 15:05:20 1 0

neon 寄存器可以索引吗？

考虑一个 neon 寄存器，例如： uint16x8_t foo; 要访问单个通道，应该使用 vgetq_lane_u16(foo, 3) 。然而，鉴于 foo 是一个 Shorts 数组，人们可能会…

过潦 2025-01-18 15:38:50 2 0

_mm_mul_epu32 和 _mm_mullo_epi32 在arm neon上

我正在研究向NEON的端口SSE代码的申请。我看到了内在的 _mm_mullo_epi32 和 _mm_mul_epu32 在SSE中。我们有等效的霓虹灯吗？…

陈年往事 2025-01-18 07:00:14 4 0

共 6 页
1
2
3
4
5
下一页

友情链接

文江博客