LLVM GCC 4.2 中内联汇编的奇怪编译

发布于 2024-12-27 17:56:57 字数 948 浏览 1 评论 0原文

我正在尝试优化以下 C 宏:

rotate(v0, v1) a0 = v0, b0 = v1, v0 = a0*c - b0*s, v1 = a0*s + b0*c

其中 Cortex-A8 处理器的所有变量都是双精度

内联程序集如下所示:

            __asm__ __volatile__("vmul.f64 %[v0], %[a0], %[c];\n\t"
                                 "vmul.f64 %[v1], %[a0], %[s];\n\t"
                                 "vmls.f64 %[v0], %[b0], %[s];\n\t"
                                 "vmla.f64 %[v1], %[b0], %[c];\n\t"
                                 :[v0]"=w"(v0), [v1]"=w"(v1)
                                 :[s]"w"(s), [c]"w"(c),
                                  [a0]"w"(v0), [b0]"w"(v1)
                                 :);

生成的程序集如下所示:

@ InlineAsm Start
vmul.f64 d13, d13, d9;
vmul.f64 d12, d13, d8;
vmls.f64 d13, d12, d8;
vmla.f64 d12, d12, d9;
@ InlineAsm End

如您所见,编译器仅使用 4 个寄存器,而不是获得正确结果所需的 6 个寄存器。

我怎样才能告诉编译器我需要 6 个寄存器?

I'm trying to optimize the following C macro:

rotate(v0, v1) a0 = v0, b0 = v1, v0 = a0*c - b0*s, v1 = a0*s + b0*c

where all variables are doubles for the Cortex-A8 processor.

The inline assembly looks the following:

            __asm__ __volatile__("vmul.f64 %[v0], %[a0], %[c];\n\t"
                                 "vmul.f64 %[v1], %[a0], %[s];\n\t"
                                 "vmls.f64 %[v0], %[b0], %[s];\n\t"
                                 "vmla.f64 %[v1], %[b0], %[c];\n\t"
                                 :[v0]"=w"(v0), [v1]"=w"(v1)
                                 :[s]"w"(s), [c]"w"(c),
                                  [a0]"w"(v0), [b0]"w"(v1)
                                 :);

Generated assembly looks the following way:

@ InlineAsm Start
vmul.f64 d13, d13, d9;
vmul.f64 d12, d13, d8;
vmls.f64 d13, d12, d8;
vmla.f64 d12, d12, d9;
@ InlineAsm End

As you can see, the compiler uses only 4 registers instead of 6 that are necessary for getting the correct result.

How can I say to the compiler that I need 6 registers?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

岁月打碎记忆 2025-01-03 17:56:57

对输出操作数使用 "=&w" 约束可以解决该问题。

Use the "=&w" constraint on the output operands fixes the issue.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文