当前位置：文江博客话题详情

使用Hash Maps来表示一个非常大的数据源

发布于 2024-07-19 20:58:00 字数 302 浏览 5 评论 0原文

我有一个非常大的可能数据集，我试图立即将其可视化。该集合本身由数十万个段组成，每个段都映射到一个 id。

我收到了第二个数据源，它为每个段提供更多实时信息，但 id 与我拥有的 id 不对应。

我有数据 id（9 个字符的字符串）到当前 id（长整数）的 1:1 映射。问题是有很多 id，并且传入的数据没有特定的顺序。

我想出的解决方案是使用一个哈希映射将字符串映射到道路 ID。问题是我不知道哈希映射是否足够有效来拥有所有 166k 数据条目。

有人有任何建议和/或哈希算法可供我使用吗？

需要登录才能够评论，你可以免费注册一个本站的账号。

话少心凉 2024-07-26 20:58:00

Judy 数组专为此类事情而设计：“Judy 的主要优点是可扩展性、高性能和内存效率[...]Judy 可以替代许多常见的数据结构，例如数组、稀疏数组、哈希表、B 树、二叉树、线性列表、跳跃列表、其他排序和搜索算法以及计数函数。”

苏别ゝ 2024-07-26 20:58:00

如果您只处理数十万个数据点，那么采用简单的方法并坚持使用哈希映射可能不会有问题。

即使您有 500,000 个 9 字符字符串和相同数量的 long，每个项目仍然只有 16 字节左右，即总共 8,000,000 字节。即使您将开销增加一倍，16 MB 也不会太大而无法一次性存储在内存中。

基本上，首先尝试简单的方法，只有当您的分析表明它花费的时间太长时才担心它。

牵你手 2024-07-26 20:58:00

由于您的字符串预先已知并且具有固定长度，因此理论上和实践上最好的解决方案是完美哈希。您可以使用 cmph 来生成它。

根据 Wikipedia，您的密钥将需要 2.5 位/密钥，即大约 50KB。与 664KB 的值相比，这可以忽略不计。

终陌 2024-07-26 20:58:00

由于对该问题的评论表明主要关注点可能是内存使用：

使用池化或其他小对象优化分配器；假设您有权访问 boost 您可能可以在池。使用更好的小对象分配器可能是您会发现的最大的内存优势。
如果您知道字符串是固定宽度的，则可能需要确保仅分配足够的空间来存储它们。例如，使用自定义比较运算符包裹固定长度 char[] 的结构可能比 std::string 更好。 std::string 带有额外的动态分配（并为相应的指针使用空间）以及一些额外的大小和容量跟踪开销。（通常，尝试减少保留的分配数量；这会减少开销。）
（假设 STL）查看 std::map 和 std::unordered_map 之间的开销差异（后者可能或目前可能无法为您服务）；基于 RBtree 的 std::map 可能足够接近“哈希图”的查找性能特征，并且可能（或可能不会）具有更高的内存效率，具体取决于您的标准库实现。

您采取的路线应该受到您可以收集的信息的影响 - 尝试了解分配数量和分配大小/对齐开销。

您可以检测您的分配器或插入一些元素，然后看看您在内存使用方面的表现与您认为应该做的相比如何。