当前位置：文江博客话题详情

对齐和性能

发布于 2025-01-01 03:53:38 字数 163 浏览 2 评论 0原文

用于比较 char * 和 memcmp 的例程 strcmp 对于其他所有内容，它们在以某种方式对齐的内存块（在 x86_64 上）上运行速度是否更快（如何？）？ libc 是否使用 SSE 来执行此例程？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

独孤求败 2025-01-08 03:53:38

这取决于对齐重要或 SIMD 指令可用的架构，通常例程将在前导字节上操作，然后执行数据允许的尽可能多的宽对齐操作，然后在尾随字节上操作。

前导字节和尾随字节是否对数据处理时间有显着影响可以通过实验来确定。

回复收藏 0 原文

好多鱼好多余 2025-01-08 03:53:38

如果您担心比较的性能，您应该看看著名的 Boyer-摩尔算法和这篇文章来自 GNU Grep 作者 Mike Haertel。

他解释了如何能够快速地在数据块中搜索某些内容。

他的总结非常清楚要做什么：

使用 Boyer-Moore（并展开其内循环几次）。
使用原始系统调用滚动您自己的无缓冲输入。避免复制
在搜索输入字节之前。（但是，请使用缓冲
输出。正常的 grep 场景是输出量为
与输入量相比较小，因此输出的开销
缓冲区复制很小，同时由于避免了许多小缓冲区而节省了成本
无缓冲的写入可能很大。）
在找到匹配项之前，不要在输入中查找换行符。
尝试设置（页面对齐的缓冲区、页面大小的读取块、
可以选择使用 mmap），这样内核还可以避免复制字节。