LLVM GCC 4.2 中内联汇编的奇怪编译
我正在尝试优化以下 C 宏:
rotate(v0, v1) a0 = v0, b0 = v1, v0 = a0*c - b0*s, v1 = a0*s + b0*c
其中 Cortex-A8 处理器的所有变量都是双精度。
内联程序集如下所示:
__asm__ __volatile__("vmul.f64 %[v0], %[a0], %[c];\n\t"
"vmul.f64 %[v1], %[a0], %[s];\n\t"
"vmls.f64 %[v0], %[b0], %[s];\n\t"
"vmla.f64 %[v1], %[b0], %[c];\n\t"
:[v0]"=w"(v0), [v1]"=w"(v1)
:[s]"w"(s), [c]"w"(c),
[a0]"w"(v0), [b0]"w"(v1)
:);
生成的程序集如下所示:
@ InlineAsm Start
vmul.f64 d13, d13, d9;
vmul.f64 d12, d13, d8;
vmls.f64 d13, d12, d8;
vmla.f64 d12, d12, d9;
@ InlineAsm End
如您所见,编译器仅使用 4 个寄存器,而不是获得正确结果所需的 6 个寄存器。
我怎样才能告诉编译器我需要 6 个寄存器?
I'm trying to optimize the following C macro:
rotate(v0, v1) a0 = v0, b0 = v1, v0 = a0*c - b0*s, v1 = a0*s + b0*c
where all variables are doubles for the Cortex-A8 processor.
The inline assembly looks the following:
__asm__ __volatile__("vmul.f64 %[v0], %[a0], %[c];\n\t"
"vmul.f64 %[v1], %[a0], %[s];\n\t"
"vmls.f64 %[v0], %[b0], %[s];\n\t"
"vmla.f64 %[v1], %[b0], %[c];\n\t"
:[v0]"=w"(v0), [v1]"=w"(v1)
:[s]"w"(s), [c]"w"(c),
[a0]"w"(v0), [b0]"w"(v1)
:);
Generated assembly looks the following way:
@ InlineAsm Start
vmul.f64 d13, d13, d9;
vmul.f64 d12, d13, d8;
vmls.f64 d13, d12, d8;
vmla.f64 d12, d12, d9;
@ InlineAsm End
As you can see, the compiler uses only 4 registers instead of 6 that are necessary for getting the correct result.
How can I say to the compiler that I need 6 registers?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
对输出操作数使用
"=&w"
约束可以解决该问题。Use the
"=&w"
constraint on the output operands fixes the issue.