为什么增加管道深度并不总是意味着增加吞吐量？

发布于 2024-08-27 17:22:29 字数 165 浏览 5 评论 0原文

这可能更多的是一个讨论问题，但我认为 stackoverflow 可能是提出这个问题的正确地方。我正在研究指令流水线的概念。据我所知，一旦管道级数增加，管道的指令吞吐量就会增加，但在某些情况下，吞吐量可能不会改变。在什么条件下，会发生这种情况？我认为停滞和分支可能是问题的答案，但我想知道我是否错过了一些关键的东西。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

墨小沫ゞ 2024-09-03 17:22:29

当等待结果或缓存未命中时，整个过程可能会被其他指令停止。管道本身并不保证操作是完全独立的。
以下是有关 x86 Intel/AMD 架构复杂性的精彩演示： http://www.infoq.com/presentations/click-crash-course-modern-hardware

它非常详细地解释了类似的内容，并涵盖了一些有关如何进一步提高吞吐量和隐藏延迟的解决方案。 JustJeff 提到了乱序执行，并且你有程序员模型未公开的影子寄存器（x86 上超过 8 个寄存器），并且你还有分支预测。

回复收藏 0 原文

花开半夏魅人心 2024-09-03 17:22:29

同意。最大的问题是停顿（等待先前指令的结果）和不正确的分支预测。如果您的管道有 20 个阶段深，并且您等待条件或操作的结果，那么您等待的时间将比管道只有 5 个阶段时等待的时间更长。如果您预测错误的分支，则必须从管道中清除 20 条指令，而不是 5 条。

我想您可能有一个深管道，其中多个阶段尝试访问相同的硬件（ALU 等），这将导致性能下降，但希望您投入足够的额外单元来支持每个阶段。

回复收藏 0 原文

乄_柒ぐ汐 2024-09-03 17:22:29

指令级并行性的收益递减。特别是，指令之间的数据依赖性决定了可能的并行性。

考虑先写后读的情况（教科书中称为 RAW）。

在第一个操作数获取结果的语法中，请考虑此示例。

10: add r1, r2, r3
20: add r1, r1, r1

第 10 行的计算开始时必须知道第 10 行的结果。数据转发缓解了这个问题，但是……仅限于数据已知的程度。

Instruction level parallelism has diminishing returns. In particular, data dependencies between instructions determine the possible parallelism.

Consider the case of Read after Write (known as RAW in textbooks).

In the syntax where the first operand gets the result, consider this example.

10: add r1, r2, r3
20: add r1, r1, r1

The result of line 10 must be known by the time the computation of line 10 begins. Data forwarding mitigates this problem, but...only to the point where the data gets known.

回复收藏 0 原文