为什么 clang 的 `-O3` 分配比 g++ 快 2 倍？基于简单的 alloca 基准

发布于 2024-11-04 01:58:47 字数 251 浏览 9 评论 0原文

在底部得到了一些基准之前的一个问题。 clang 显然在 -O3 优化器配置文件中有更好的实现。什么给？ clang 是否有偷工减料？另外，由于 clang 是一个现代编译器，它的 alloca 实现中是否有任何安全性或其他有趣的属性？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

对不⑦ 2024-11-11 01:58:47

德尔南的猜测是正确的。但他没有考虑到测试非常糟糕，clang 可以从 alloca_test 优化实际的 alloca 操作。

alloca_test 只有 llvm ir 操作 alloca，但没有 alloca() 函数调用：

%11 = call i32 @_Z18random_string_sizev()
%12 = alloca i8, i32 %11

与 malloc_test 比较：

%11 = call i32 @_Z18random_string_sizev()
%12 = call i8* @malloc(i32 %11)

即使使用 -O1 在 alloca_test 中不再有分配：

define void @_Z11alloca_testv() nounwind {
; <label>:0
  %1 = tail call i32 @_Z18random_vector_sizev()
  %2 = icmp sgt i32 %1, 0
  br i1 %2, label %.lr.ph, label %._crit_edge

.lr.ph:                                           ; preds = %.lr.ph, %0
  %i.01 = phi i32 [ %4, %.lr.ph ], [ 0, %0 ]
  %3 = tail call i32 @_Z18random_string_sizev()
  %4 = add nsw i32 %i.01, 1
  %exitcond = icmp eq i32 %4, %1
  br i1 %exitcond, label %._crit_edge, label %.lr.ph

._crit_edge:                                      ; preds = %.lr.ph, %0
  ret void
}

对于 malloc_test，malloc 调用仍然在这里：

%6 = tail call i32 @_Z18random_string_sizev()
%7 = tail call i8* @malloc(i32 %6)

我还应该说 g++ -O3 （测试过的 4.1 和 4.5.2）不会优化堆栈大小的变化（分配主效应）。

Guess by delnan is true. But he didn't account that test is very bad, and clang can to optimize out actual alloca operation from alloca_test.

alloca_test have only llvm ir operation alloca, but no alloca() function call:

%11 = call i32 @_Z18random_string_sizev()
%12 = alloca i8, i32 %11

Compare with malloc_test:

%11 = call i32 @_Z18random_string_sizev()
%12 = call i8* @malloc(i32 %11)

Even with -O1 there is no more alloca in alloca_test:

define void @_Z11alloca_testv() nounwind {
; <label>:0
  %1 = tail call i32 @_Z18random_vector_sizev()
  %2 = icmp sgt i32 %1, 0
  br i1 %2, label %.lr.ph, label %._crit_edge

.lr.ph:                                           ; preds = %.lr.ph, %0
  %i.01 = phi i32 [ %4, %.lr.ph ], [ 0, %0 ]
  %3 = tail call i32 @_Z18random_string_sizev()
  %4 = add nsw i32 %i.01, 1
  %exitcond = icmp eq i32 %4, %1
  br i1 %exitcond, label %._crit_edge, label %.lr.ph

._crit_edge:                                      ; preds = %.lr.ph, %0
  ret void
}

And for malloc_test, malloc call is still here:

%6 = tail call i32 @_Z18random_string_sizev()
%7 = tail call i8* @malloc(i32 %6)

I should also say that g++ -O3 (tested 4.1 and 4.5.2) doesn't optimize out changing size of stack (alloca main effect).

回复收藏 0 原文

~没有更多了~

关于作者

再浓的妆也掩不了殇

暂无简介

文章

27 人气

关注发私信

友情链接

文江博客

为什么 clang 的 `-O3` 分配比 g++ 快 2 倍？基于简单的 alloca 基准

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

Promise

qq_lbRlsh

待＂谢繁草

yy2010hell

漫无边际

傲娇萝莉攻

友情链接

为什么 clang 的 `-O3` 分配比 g++ 快 2 倍？基于简单的 alloca 基准

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

Promise

qq_lbRlsh

待＂谢繁草

yy2010hell

漫无边际

傲娇萝莉攻

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。