当前位置：文江博客话题详情

performance assembly c++ low-level

基本函数的典型执行时间

发布于 2024-11-30 04:57:37 字数 461 浏览 4 评论 0原文

众所周知，乘法的处理器指令比加法花费的时间多几倍，除法甚至更糟（UPD：这不再是事实，见下文）。那么像指数这样更复杂的运算呢？他们有多难？

动机。我很感兴趣，因为这将有助于算法设计，在早期阶段估计算法的性能关键部分。假设我想对图像应用一组滤镜。其中一个对每个像素的 3×3 邻域进行运算，对它们求和并取 atan。另一种方法对更多相邻像素求和，但不使用复杂的函数。哪一个执行时间会更长？

因此，理想情况下，我希望获得基本运算执行的近似相对时间，例如乘法通常比加法花费 5 倍的时间，指数约为 100 次乘法。当然，这是一个数量级的交易，而不是确切的值。我知道这取决于硬件和参数，所以假设我们测量现代 x86/x64 上浮点运算的平均时间（在某种意义上）。对于未在硬件中实现的操作，我对 C++ 标准库的典型运行时间感兴趣。

当分析这样的事情时，你有看到任何消息来源吗？这个问题有道理吗？或者没有这样的经验法则可以应用于实践？

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（3）

一场春暖 2024-12-07 04:57:37

首先，我们要明确一点。这：

众所周知，处理器的乘法指令需要
比加法多几倍的时间

不再成立。很多很多年以来，情况并非如此，并且需要停止重演。在最常见的架构中，整数乘法是几个周期，整数加法是单周期；浮点加法和乘法往往具有几乎相同的时序特性（通常约为 4-6 个周期延迟，单周期吞吐量）。

现在，回答您的实际问题：它随架构和实现的不同而变化。在最近的架构上，具有编写良好的数学库，简单的基本函数（例如 exp 和 log）通常需要几十个周期（20-50 个周期是合理的支持）信封图）。对于质量较低的库，您有时会发现这些操作需要数百个周期。

对于更复杂的函数，例如pow，典型的时序范围从数十个周期到数百个周期。

回复收藏 0 原文

凉月流沐 2024-12-07 04:57:37

你不应该担心这个。如果我告诉你，超越函数的典型 C 库实现往往需要大约 10 次单个浮点加法/乘法（或 50 次浮点加法/乘法），以及大约 5 次浮点除法，这不会是对你有用。

事实上，您的处理器安排内存访问的方式将严重干扰您所做的任何过早的优化。

如果在分析之后您发现使用超越函数的特定实现太慢，您可以考虑设置多项式插值方案。这将包括一个表，因此会产生额外的缓存问题，因此请确保进行测量而不是猜测。

这可能涉及切比雪夫近似。记录一下自己的情况，这是此类领域中特别有用的技术。

有人告诉我编译器在优化浮点代码方面非常糟糕。您可能想要编写自定义汇编代码。

此外，Intel Performance Primitives（如果您使用的是 Intel CPU）如果您准备牺牲一些准确性来换取速度，那么值得拥有的东西。

回复收藏 0 原文

骄傲 2024-12-07 04:57:37

您始终可以启动第二个线程并对操作进行计时。大多数基本操作在执行时间上没有太大差异。最大的区别在于执行的次数。 O(n) 通常是您应该考虑的。

回复收藏 0 原文

~没有更多了~

关于作者

素食主义者

暂无简介

文章

评论

26 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

知足的幸福

文章 0 评论 0

我一向站在原地

文章 0 评论 0

慕烟庭风

文章 0 评论 0

秉忠贞之诚守退让之实

文章 0 评论 0

小兔几

文章 0 评论 0

mb_3y7WUgWY

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文