当前位置：文江博客话题详情

从太大而无法放入内存的数据集创建一个唯一列表

发布于 2024-10-10 13:30:57 字数 291 浏览 4 评论 0原文

我有一个包含 1.2 亿条记录的列表，每条记录约 40/50 字节，原始内存空间约为 5.5/6 GB，不包括将数组保留在内存中所需的任何额外存储空间。

我想确保这个列表是唯一的。我尝试的方法是创建一个 Hashset并将所有条目一一添加到其中。

当我达到大约 3300 万条记录时，我的内存不足，并且列表创建速度慢得像爬行一样。

有没有更好的方法来及时对如此庞大的条目列表进行排序？我能想到的唯一解决方案是使用 Amazon EC2 高内存四倍超大实例一个小时。

谢谢

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

酒中人 2024-10-17 13:30:58

如果您只是想检查唯一性，我只需将输入序列分成多个桶，然后分别检查每个桶。

例如，假设您正在从文件加载数据，您可以将输入流式传输，并将其写入 26 个不同的文件，每个记录以 AZ 开头的字母对应一个文件（我天真地假设每个记录以 AZ 开头 -请根据您的实际情况进行调整）。然后，您可以使用现有代码之类的方法检查每个较小文件的唯一性 - 因为它们都不会太大而无法一次装入内存。初始存储桶保证不同存储桶中不会有任何重复条目。

当然，您可以通过多种不同的方式来执行分桶，并且不同的方法对于不同的数据集将有效。例如，您可以通过哈希码进行存储 - 采用哈希码的底部 5 位来创建 32 个不同的存储桶。这可能会在存储桶之间获得合理的记录分布，并且不会对输入数据做出任何假设。我上面只提到了“采用第一个字母的方法”，因为这是理解这个概念的更简单的方法:)

回复收藏 0 原文