ARM Cortex-A8：VFP 和 NEON 有什么区别

发布于 2024-09-30 18:28:04 字数 523 浏览 16 评论 0原文

在ARM Cortex-A8处理器中，我了解NEON是什么，它是一个SIMD协处理器。

但同时也是协处理器的VFP（矢量浮点）单元是否可以用作SIMD处理器呢？如果可以的话，使用哪一个更好？

我读了一些链接，例如这个。

但并不是很清楚它们的意思。他们说 VFP 从来没有打算用于 SIMD，但在 Wiki 上我读到了以下 - “VFP 架构还支持执行短向量指令，但这些指令按顺序对每个向量元素进行操作，因此无法提供真正的 SIMD（单指令多数据）并行性的性能。

”如此清楚该相信什么，有人能详细说明这个话题吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

扮仙女 2024-10-07 18:28:04

两者之间存在着相当大的差异。 Neon 是 SIMD（单指令多数据）加速器处理器，作为 ARM 内核的一部分。这意味着在执行一条指令的过程中，同一操作将并行发生在最多 16 个数据集上。由于 Neon 内部具有并行性，因此与以相同时钟速率运行的标准 SISD 处理器相比，您可以从 Neon 中获得更多的 MIPS 或 FLOPS。

Neon 最大的好处是如果你想执行矢量操作，即视频编码/解码。它还可以并行执行单精度浮点（float）运算。

VFP是一个经典的浮点硬件加速器。它不是像 Neon 那样的并行架构。基本上它对一组输入执行一个操作并返回一个输出。其目的是加速浮点计算。它支持单精度和双精度浮点。

您有 3 种使用 Neon 的可能性：

使用内在函数 #include "arm_neon.h"
内联汇编代码
，让 gcc 通过提供 -mfpu=neon 作为参数来为您进行优化（gcc 4.5 是对此很好）

回复收藏 0 原文

用心笑 2024-10-07 18:28:04

对于armv7 ISA（及其变体）

NEON 是一个用于整数和浮点数据的 SIMD 和并行数据处理单元，VFP 是一个完全兼容 IEEE-754 的浮点单元。特别是在 A8 上，即使您没有高度并行的数据，NEON 单元对于几乎所有事情都快得多，因为 VFP 是非流水线的。

那么你为什么要使用 VFP？！

最主要的区别是 VFP 提供双精度浮点。

其次，VFP 提供了一些专门的指令，但 NEON 单元中没有等效的实现。我想到了 SQRT，也许是一些类型转换。

但 Cosmin 的回答中没有提到的最重要的区别是 NEON 浮点管道并不完全符合 IEEE-754。有关差异的最佳描述位于FPSCR 寄存器描述< /a>.

由于它不兼容 IEEE-754，因此编译器无法生成这些指令，除非您告诉编译器您对完全兼容不感兴趣。这可以通过多种方式完成。

使用内部函数强制使用 NEON，例如，请参阅 GCC Neon 内部函数列表。
询问编译器，非常好。即使使用 -mfpu=neon 的较新 GCC 版本也不会生成浮点 NEON 指令，除非您还指定了 -funsafe-math-optimizations。

对于armv8+ ISA（和变体） [更新]

NEON 现在完全符合 IEE-754，从程序员（和编译器）的角度来看，实际上没有太大区别。双精度已矢量化。从微架构的角度来看，我有点怀疑它们甚至是不同的硬件单元。 ARM 确实分别记录了标量和向量指令，但两者都是“高级 SIMD”的一部分。

回复收藏 0 原文

踏月而来 2024-10-07 18:28:04

从架构上来说，VFP（它并不是无缘无故地被称为向量浮点）确实提供了在单个指令中对浮点向量进行操作的规定。我认为它实际上不会同时执行多个操作（如真正的 SIMD），但它可以节省一些代码大小。但是，如果您阅读 Shark 帮助中的 ARM 架构参考手册（正如我在 NEON 简介中所描述的，问题中的链接 1），您将在 A2.6 节中看到 VFP 的矢量功能在 ARMv7 中已弃用（这是 Cortex A8 实现的），软件应使用高级 SIMD 进行浮点向量运算。

更糟糕的是，在 Cortex A8 实现中，VFP 是使用 VFP Lite 执行单元实现的（将 lite 理解为占用更小的硅表面，而不是具有更少的功能），这意味着它实际上比 ARM11 慢！幸运的是，大多数单精度 VFP 指令由 NEON 单元执行，但我不确定矢量 VFP 操作是否如此；即使它们这样做，它们的执行速度也肯定比 NEON 指令慢。

希望这能解决问题！

回复收藏 0 原文

去了角落 2024-10-07 18:28:04

IIRC，VFP 是一个按顺序工作的浮点协处理器。

这意味着您可以在浮点向量上使用指令来实现类似 SIMD 的行为，但在内部，该指令是按顺序对向量的每个元素执行的。

虽然由于单个加载指令，指令所需的总时间因此减少，但 VFP 仍然需要时间来处理向量的所有元素。

真正的 SIMD 将获得更多的净浮点性能，但将 VFP 与向量一起使用仍然比使用纯顺序更快。

回复收藏 0 原文

旧人 2024-10-07 18:28:04

VFP：想想 x86 CPU 的 x87 FPU。它为 ARM CPU 添加了 FPU 功能，否则这些 CPU 只能支持整数指令。从ARMv8一代（AARCH64）开始，FPU就成为核心指令集的一部分，就像x87随着Pentium成为核心一样（有些486 CPU仍然没有FPU）。
NEON：想想 SSE2。它添加了 SIMD 功能。从 ARMv8 一代（AARCH64）开始，NEON 就成为核心指令集的一部分，就像 SSE 成为 x86_64 的核心一样（因为至少没有不支持 SSE2 的 x86_64 CPU）

至于向量指令，ARM一直有向量到处都是指示。例如，ARMv6 一代添加了向量整数指令作为核心指令集的一部分。因此，ARM 从来没有像其他 CPU 架构那样明确区分“矢量”和“非矢量”，其中所有核心指令都是非矢量，只有特殊的矢量扩展添加了矢量支持。今天的 x86 CPU 也到处都有向量运算。

您在维基百科上的引用与您之前所说或引用的任何内容并不矛盾。 VFP单元也有向量指令，但这些只能减少代码大小，因为一条指令可以一次指定多个操作，但是，操作本身在VFP单元内一次执行一个，因此没有速度优势，只有代码规模效益。另一方面，NEON 真正并行执行这些指令，为您带来巨大的速度优势。

回复收藏 0 原文

~没有更多了~