当前位置：文江博客话题详情

Hash hashtable c byte

对字节字符串进行哈希处理

发布于 2024-11-06 23:58:07 字数 589 浏览 0 评论 0原文

我正在开发一个个人项目，一个文件压缩程序，并且我的符号字典遇到了问题。我需要将以前遇到的字节字符串存储到一个结构中，以便我可以快速检查它们是否存在并检索它们。我一直在假设哈希表最适合此目的的情况下进行操作，因此我的问题将与哈希函数有关。然而，如果有人能提出一个更好的哈希表替代方案，我会洗耳恭听。好的。所以问题是我无法为这些字节字符串想出一个好的哈希键。我想到的一切要么分布非常不均匀，要么花费的时间太长。这是我正在处理的情况的列表：

所有字节字符串至少长度为两个字节。
哈希表的最大大小为 3839，并且很可能会被填满。
测试表明，对于任何给定的字节，与较低的七位相比，最高位被设置的可能性要小得多。
否则，字符串中的字节可以是 0 - 255 之间的任何值（我正在使用任何格式的原始字节数据）。
我正在 UNIX 环境中使用 C 语言。我更愿意坚持使用标准库，但它不需要移植到其他操作系统。（IE unistd.h 就可以）。
安全性无需担心。
速度是一个高度关注的问题。
大小并不重要，因为它不会写入文件。然而，考虑到所存储的字节字符串的潜在大小，在压缩期间内存空间可能成为一个问题。

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（1）

回忆凄美了谁 2024-11-13 23:58:07

trie 更适合这种事情，因为它可以让你将符号存储为树，并且快速解析它以匹配值（或拒绝它们）。

作为奖励，您根本不需要哈希。您一次存储/检索/比较整个序列，同时仍然只保留最少量的内存。

编辑：作为额外的好处，只需第二次解析，您就可以查找与当前序列“接近”的序列，因此您可以摆脱一个序列并为它们使用前一个序列，并带有一些内部符号来保存差异。这将帮助您更好地压缩文件，因为：

较小的字典意味着较小的文件，您必须将字典写入文件
如果您添加人口上限并使用它，则较少数量的项目可以释放空间来容纳其他更罕见的序列一个大文件。

回复收藏 0 原文

~没有更多了~

关于作者

雨落星ぅ辰

暂无简介

0 文章

0 评论

24 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

lorenzathorton8

文章 0 评论 0

Zero

文章 0 评论 0

萧瑟寒风

文章 0 评论 0

mylayout

文章 0 评论 0

tkewei

文章 0 评论 0

17818769742

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文