当前位置：文江博客话题详情

sorting assembly simd

快速寄存器内排序字节？

发布于 2024-08-07 23:15:58 字数 82 浏览 7 评论 0原文

给定 4 个字节的寄存器（对于 SIMD，为 16 个字节），必须有一种有效的方法来使用一些指令对寄存器中的字节进行排序。

提前致谢。

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（4）

离线来电— 2024-08-14 23:15:59

所有排序算法都需要将值从一个地方“交换”到另一个地方。由于您谈论的是文字 CPU 寄存器，这意味着任何类型都需要另一个寄存器来用作临时位置来保存正在交换的字节。

我从未见过具有用于对寄存器内的字节进行排序的内置方法的芯片。并不是说它还没有完成，但我想不出这样的指令有多少用途。

回复收藏 0 原文

寂寞花火° 2024-08-14 23:15:58

找到了！它出现在 Furtak、Amaral 和 Nieviadomski 于 2007 年发表的论文“使用 SIMD 寄存器和指令在排序算法中启用指令级并行性”中。第 4 部分。

它使用 4 个 SSE 寄存器，有 12 个步骤，运行包括加载和存储在内的 19 条指令。

同一篇论文在使用 SIMD 动态构建排序网络方面也有一些出色的工作。

回复收藏 0 原文

流殇 2024-08-14 23:15:58

查找高效的排序网络，其中 N = 您关心的字节数（4 或 16）。将其转换为比较和交换指令序列。（不过，对于 N=16，这将不仅仅是“一些”。）

回复收藏 0 原文

深空失忆 2024-08-14 23:15:58

为了加快字符串排序速度，我最终将每个双精度数打包 7 个字节，并对 SSE2 中的 16 个双精度数数组进行排序（排名），使用双调排序创建两次 8 个运行，并使用二进制合并来合并这两个运行。您可以在这里看到第一部分 http://mischasan.wordpress.com/2011/07/29/okay-one-more-poke-at-sse2-sorting-doubles/（asm）和这里http://mischasan.wordpress.com/2011/09/ 02/update-on-bitonic-sse2-sort-of-16-doubles/ (C)，以及 bitonic 合并步骤（如果你想一直使用 SSE）：http://mischasan.wordpress.com/ 2012/11/04/sse2-odd-even-merge-the-last-step-in-sorting/ 。我用这种排序替换了qsort底部的插入排序，它的速度大约是直接qsort的5倍。 HTH

我还没看过 UofA 的论文；双调逻辑来自老式 (CTM) GPGPU 编程。

对于嵌入的链接字符串感到抱歉；我不知道如何在评论 stackoverflow 中添加可点击的链接。

回复收藏 0 原文

~没有更多了~

关于作者

凉城已无爱

暂无简介

文章

评论

25 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

Promise

文章 0 评论 0

qq_lbRlsh

文章 0 评论 0

待＂谢繁草

文章 0 评论 0

yy2010hell

文章 0 评论 0

漫无边际

文章 0 评论 0

傲娇萝莉攻

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文