simd

simd

文章 0 浏览 6

ARM NEON:比较 128 位值

我感兴趣的是找到比较 Cortex-A9 内核(允许使用 VFP 指令)上 NEON 寄存器(例如 Q0 和 Q3)中存储的值的最快方法(最低周期数)。 到目前为止,我有…

平生欢 2024-12-29 21:04:54 3 0

SIMD 的优先选择是始终摆脱分支吗?

如果您正在编写一些将由另一个程序运行的 SIMD 代码,那么摆脱分支以提高性能是否总是有利的?我听说即使只是为了避免 if/else 语句等而进行额外的操…

囍笑 2024-12-27 16:26:27 3 0

SIMD 在这种情况下表现如何?

我使用的引擎允许编写 SIMD 代码,并且执行速度很快。但只有一个块包含所有代码。 我知道这段代码是在每个实体上同时独立运行的,但是当只有 1 件事发…

许你一世情深 2024-12-27 13:49:17 1 0

二进制图像上的快速像素计数 - ARM neon 内在函数 - iOS Dev

有人可以告诉我一个快速函数来计算二进制图像中白色像素的数量。我需要它用于 iOS 应用程序开发。我正在直接处理定义的图像的内存,因为 bool *imageD…

孤者何惧 2024-12-27 11:32:00 1 0

Intel x86 ISA 上的 _mm_load_ps 与 _mm_load_pd 与等

下面两行有什么区别? __m128 x = _mm_load_ps((float *) ptr); __m128 y = _mm_load_pd((double *)ptr); 换句话说,为什么有这么多不同的_mm_load_xy…

清醇 2024-12-26 20:08:18 1 0

SSE比FPU慢?

我有一大段代码,其主体部分包含这段代码: result = (nx * m_Lx + ny * m_Ly + m_Lz) / sqrt(nx * nx + ny * ny + 1); 我已将其矢量化如下(一切都已…

冰之心 2024-12-26 11:56:12 2 0

ARM NEON 简单低通滤波器矢量化

我有一个简单的单极低通滤波器(用于参数平滑),可以通过以下公式进行解释: y[n] = (1-a) * y[n-1] + a * x[n] 如何在 ARM Neon 上有效矢量化这种情…

書生途 2024-12-25 03:48:00 2 0

这个 Delphi 6 位图修改代码可以用 SIMD 或其他方法加速吗?

我有一个可以实时修改位图的 Delphi 6 应用程序。目前,我正在使用下面所示的代码来进行快速亮度增强和对比度更改。如果操作只是加法或乘法,我可以看…

兔小萌 2024-12-23 06:43:23 1 0

如何在 XMM 寄存器之间移动 128 位值?

汇编中看似微不足道的问题:我想将整个 XMM0 寄存器复制到 XMM3。我已经尝试过 movdq xmm3, xmm0 ,但 MOVDQ 不能用于在两个 XMM 寄存器之间移动值。…

欲拥i 2024-12-23 04:10:43 2 0

为什么这段代码效率不高?

我想改进下一个代码,计算平均值: void calculateMeanStDev8x8Aux(cv::Mat* patch, int sx, int sy, int& mean, float& stdev) { unsigned sum=0; un…

转角预定愛 2024-12-21 20:13:30 1 0

AVX2 中的 _mm_alignr_epi8 (PALIGNR) 等效项

在 SSE3 中,PALIGNR 指令执行以下操作: PALIGNR 将目标操作数(第一个操作数)和源操作数(第二个操作数)连接成一个中间组合,以字节粒度将组合右…

彼岸花ソ最美的依靠 2024-12-21 14:12:44 2 0

添加 SSE 寄存器的组件

我想添加 SSE 寄存器的四个组件以获得单个浮点数。我现在是这样做的: float a[4]; _mm_storeu_ps(a, foo128); float x = a[0] + a[1] + a[2] + a[3];…

殤城〤 2024-12-21 08:52:56 2 0

NEON 向量化无符号字节的乘积之和: (a[i]-int1) * (b[i]-int2)

我需要改进循环,因为我的应用程序调用了数千次。我想我需要用 Neon 来做这件事,但我不知道从哪里开始。 假设/前提条件: w 始终为 320(16/32 的倍…

风和你 2024-12-20 21:43:05 1 0

C# 向量化数组加法

是否有办法以 SIMD 方式“矢量化”数组中元素的添加? 例如,我想将: 转换 var a = new[] { 1, 2, 3, 4 }; var b = new[] { 1, 2, 3, 4 }; var c = n…

夏至、离别 2024-12-17 06:54:31 3 0

SSE 乘法 16 x uint8_t

我想用 SSE4 将 __m128i 对象与 16 个无符号 8 位整数相乘,但我只能找到用于乘法 16 位整数的内在函数。没有诸如_mm_mult_epi8之类的东西吗?…

梦过后 2024-12-16 23:02:32 1 0
更多

推荐作者

忆悲凉

文章 0 评论 0

hgfg1645

文章 0 评论 0

qq_qLPLYi

文章 0 评论 0

戏舞

文章 0 评论 0

殊姿

文章 0 评论 0

﹂绝世的画

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文