在比较用 C++ 编写的两种不同算法时，您使用的优化级别 (g++) 是多少？

发布于 2024-08-06 18:18:29 字数 815 浏览 2 评论 0原文

我有两个用 C++ 编写的算法。据我所知，传统的编译方式是
-O0 -NDEBUG (g++) 同时比较两种算法的性能（渐近地它们是相同的）。
但我认为优化级别对其中之一是不公平的，因为它在每种情况下都使用STL。使用 -O0 选项编译时，使用普通数组的程序比 STL 重算法快 5 倍。但是当我使用 -O2 -NDEBUG 编译它们时，性能差异并没有太大差异。

有什么方法可以在优化级别 -O0 中充分利用 STL（我在 vector [] 运算符中受到严重的性能影响）？

在比较两种算法时，您使用什么优化级别（以及可能的变量，如 -NDEBUG）？

如果有人能提供一些有关比较用 C++ 编写的算法的性能的学术研究趋势的想法，这也会有很大的帮助？

好的，为了隔离优化级别的问题，我现在使用一种算法但两种不同的实现。

我已将带有原始指针（int 和 boolean）的函数之一更改为 std::vector 和 std::vector...使用 -O0 -NDEBUG 性能为 5.46s（原始指针）和 11.1s（std::vector ）。使用 -O2 -NDEBUG 时，性能为 2.02 秒（原始指针）和 2.21 秒（std::vector）。相同的算法，一种实现是使用 4/5 int 和 boolean 动态数组。另一种是使用 std::vector 和 std::vector 代替。它们在其他所有情况下都是相同的

您可以看到，在 -O0 std::vector 中，指针的速度要快两倍。而在-O2 中它们几乎是相同的。

但我真的很困惑，因为在学术领域，当他们在运行时发布算法结果时，他们用-O0来编译程序。

我缺少一些编译器选项吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

临风闻羌笛 2024-08-13 18:18:29

这取决于您想要优化的内容。

速度

我建议使用 -O2 -NDEBUG -ftree-vectorize ，如果您的代码专门设计为在 x86 或 x86_64 上运行，请添加 -msse2 。这将使您对 GIMPLE 的执行方式有一个大致的了解。

大小

我相信你应该使用 -Os -fno-rtti -fno-exceptions -fomit-frame-pointer 。这将在一定程度上最小化可执行文件的大小（假设是 C++）。

在这两种情况下，算法的速度都不依赖于编译器，但如果编译器能够“证明”它可以，它就可以极大地改变代码的行为方式。

GCC 检测“常见”代码，例如手动编码的 min() 和 max() 并将它们转换为一条 SSE 指令（在 x86/x86_64 上且设置 -msse 时））或在 i686 可用时使用 cmov（SSE 具有更高优先级）。如果愿意的话，GCC 还会自由地重新排序循环、展开和内联函数，甚至删除无用的代码。

至于您的最新编辑：

你可以看到 -O0 std::vector 中是
表现优于其他，速度快两倍
指针。而在 -O2 中，他们几乎
一样的。

这是因为 std::vector 仍然有引发异常并可能使用 rtti 的代码。尝试与 -O2 -NDEBUG -ftree-vectorize -fno-rtti -fno-exceptions -fomit-frame-pointer 进行比较，您会发现 std::vector 会比您的代码稍好一些。 GCC 知道什么是“内置”类型以及如何在现实世界使用中利用它们，并且很乐意这样做 - 就像它知道什么是 memset() 和 memcpy() 的作用以及在已知副本大小时如何进行相应优化。

回复收藏 0 原文

天涯离梦残月幽梦 2024-08-13 18:18:29

编译器优化通常不会改变算法的复杂度顺序，只会改变常数和线性比例因子。编译器相当聪明，但没有那么聪明。

您打算仅使用 -O0 来编译要发布的代码吗？可能不会。您不妨将算法与您实际打算使用的任何编译标志进行编译时的性能进行比较。

回复收藏 0 原文

幻想少年梦 2024-08-13 18:18:29

您有两种用 C++ 实现的算法。如果您想比较两种实现的相对性能，那么您应该使用将在最终产品中使用的优化级别。对我来说，那就是-O3。

如果您想分析算法的复杂性，那么这更像是一个分析问题，您可以查看针对不同大小和输入特征必须执行的操作总数。

作为编写性能成为问题的代码的开发人员，最好了解编译器可以并且可能应用于您的代码的优化范围。不进行优化会不公平地惩罚那些编写清晰但设计为可以轻松针对已经“微优化”的代码进行优化的代码。

回复收藏 0 原文

离笑几人歌 2024-08-13 18:18:29

我认为没有理由不在 O2 上编译并运行它们。除非你将其作为纯粹的学术练习（即使你是这样，优化也不太可能对算法的属性产生根本性的改变 - 不过，我想如果 GCC 开始转向 O(N) 我会很高兴源到 O(lgN) 程序集），您将需要与实际运行最终程序时获得的信息一致的信息。您很可能不会发布具有 O0 优化的程序，因此您不想比较 O0 优化下的算法。

回复收藏 0 原文

陌上青苔 2024-08-13 18:18:29

这种比较与其说是为了公平，不如说是为了产生有用的信息。您应该使用您计划在代码投入生产使用时使用的优化级别。如果您基本上是在进行研究，那么您个人并不打算将其投入生产使用，那么您就会陷入稍微困难的工作，即猜测将其投入生产的人会做什么可能会。

实际上，即使您正在进行开发而不是研究，无论如何您都会遇到一些问题 - 几乎不可能预测您最终可能对该特定代码使用的优化级别。

就我个人而言，我通常将 -O2 与 gcc 一起使用。我的一般经验法则是使用打开自动内联的最低级别的优化。我编写了很多代码，期望编译器能够内联小函数，并专门编写代码来帮助实现这一点（例如，经常使用函子而不是函数）。如果编译器没有设置为内联生成代码，那么您就无法得到我真正想要的东西。以这种方式编译的代码的性能实际上并没有任何意义——我当然不会计划真正以这种方式使用它。

回复收藏 0 原文

~没有更多了~