当前位置：文江博客话题详情

如何交换256位AVX（YMM）寄存器中的低128位和高128位

发布于 2024-12-01 09:54:07 字数 268 浏览 1 评论 0原文

我正在移植 SSE SIMD 代码以使用 256 位 AVX 扩展，但似乎找不到任何可以混合/洗牌/移动高 128 位和低 128 位的指令。

背景故事：

我真正想要的是 VHADDPS/_mm256_hadd_ps 表现得像 HADDPS/_mm_hadd_ps，只有 256比特的话。不幸的是，它就像对 HADDPS 的两次调用，独立作用于低位字和高位字。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

酒解孤独 2024-12-08 09:54:07

使用 VPERM2F128，可以交换低 128 位和高 128 位（以及其他排列）。内在函数的用法看起来像

x = _mm256_permute2f128_ps( x , x , 1)

第三个参数是一个控制字，它为用户提供了很大的灵活性。有关详细信息，请参阅英特尔 Intrinsic 指南。

Using VPERM2F128, one can swap the low 128 and high 128 bits ( as well as other permutations). The instrinsic function usage looks like

x = _mm256_permute2f128_ps( x , x , 1)

The third argument is a control word which gives the user a lot of flexibility. See the Intel Instrinsic Guide for details.

回复收藏 0 原文

枯寂 2024-12-08 09:54:07

x = _mm256_permute4x64_epi64(x, 0b01'00'11'10);

阅读相关内容此处。并且在线尝试！

注意：该指令需要AVX2（不仅仅是AVX1））。

作为评论 @PeterCordes Zen2 / Zen3 CPU 上的速度 _mm256_permute2x128_si256(x, x, i) 是最好的选择，尽管与函数 _mm256_permute4x64_epi64(x, i) 有两个参数。

在 Zen1 和 KNL/KNM（以及推土机系列挖掘机）上，_mm256_permute4x64_epi64(x, i) 效率更高。在其他CPU（包括主流Intel）上，两种选择都是相同的。

正如已经说过的，_mm256_permute2x128_si256(x, y, i)和_mm256_permute4x64_epi64(x, i)都需要AVX2，而_mm256_permute2f128_si256(x, i)只需要 AVX1。

x = _mm256_permute4x64_epi64(x, 0b01'00'11'10);

Read about it here. And Try it online!

Note: This instruction needs AVX2 (not just AVX1).

As commented by @PeterCordes speed-wise on Zen2 / Zen3 CPUs _mm256_permute2x128_si256(x, x, i) is the best option, even though it has 3 arguments compared to function _mm256_permute4x64_epi64(x, i) suggested by me having 2 arguments.

On Zen1 and KNL/KNM (and Bulldozer-family Excavator), _mm256_permute4x64_epi64(x, i) suggested by me is more efficient. On other CPUs (including mainstream Intel), both choices are equal.

As already said both _mm256_permute2x128_si256(x, y, i) and _mm256_permute4x64_epi64(x, i) need AVX2, while _mm256_permute2f128_si256(x, i) needs just AVX1.

回复收藏 0 原文

寂寞清仓 2024-12-08 09:54:07

据我所知，执行此操作的唯一方法是使用 _mm256_extractf128_si256 和 _mm256_set_m128i。例如，交换 256 位向量的两半：

__m128i v0h = _mm256_extractf128_si256(v0, 0);
__m128i v0l = _mm256_extractf128_si256(v0, 1);
__m256i v1 = _mm256_set_m128i(v0h, v0l);

The only way that I know of doing this is with _mm256_extractf128_si256 and _mm256_set_m128i. E.g. to swap the two halves of a 256 bit vector:

__m128i v0h = _mm256_extractf128_si256(v0, 0);
__m128i v0l = _mm256_extractf128_si256(v0, 1);
__m256i v1 = _mm256_set_m128i(v0h, v0l);

回复收藏 0 原文

~没有更多了~

关于作者

丑丑阿

暂无简介

0 文章

0 评论

23 人气

关注发私信

友情链接

文江博客

如何交换256位AVX（YMM）寄存器中的低128位和高128位

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

隔纱相望

昵称有卵用

梨涡

蓝咒

白芷

樱娆

友情链接

如何交换256位AVX（YMM）寄存器中的低128位和高128位

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

隔纱相望

昵称有卵用

梨涡

蓝咒

白芷

樱娆

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。