当前位置：文江博客话题详情

java中为字符串构造一个唯一的数字

发布于 2024-09-06 01:57:40 字数 272 浏览 6 评论 0原文

我们需要在一个文件中读取/写入超过 1000 万个字符串。此外，我们不希望文件中有重复项。由于字符串一旦被读取就会被刷新到文件中，因此我们不会将其保留在内存中。

我们不能使用哈希码，因为哈希码中存在冲突，因此我们可能会错过重复的字符串。我在谷歌搜索中发现的另外两种方法：

1.使用像 MD5 这样的消息摘要算法 - 但计算和存储的成本可能太高。

2.使用校验和算法。 [我不确定这是否会为字符串生成唯一的密钥-有人可以确认]

是否还有其他可用的方法。谢谢。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

天生の放荡 2024-09-13 01:57:40

如果您可以接受微小的冲突风险，您可以按照您的建议使用一些哈希函数（例如 MD5），并依赖哈希值。

另一种替代方案（可能需要更大的内存占用）是将已经遇到的字符串存储在 中trie（一种特殊类型的树）。

更新：另一种选择是使用 Bloom 过滤器。然而，这仍然依赖于散列，但可以调整为具有任意小的冲突概率。

回复收藏 0 原文

落墨 2024-09-13 01:57:40

在内存中存储 1000 万个字符串确实很多，所以我理解立即将其写入文件而不是存储在例如 TreeSet首先，但是哪里您想存储这 1000 万个您想与哪个唯一的数字键进行比较？当您想保持它唯一和数字（其基数/基数比字母小得多）时，您不能使密钥比字符串本身更短，所以你不会保存任何内存。或者最多可以使用 GZIP 等数据压缩，但这只会增加大量开销。 MD5 也是不合适的，因为两个不同的字符串可以产生相同的哈希值。

我真的认为没有比使用像样的 RDBMS（SQL 数据库）更好的解决方案了，其中您将列设置为 UNIQUE 并相应地处理约束违规。 RDBMS 针对此类任务进行了高度优化。

如果您确实无法考虑数据库，那么您需要在写入/刷新之前重新读取文件中的任何现有条目。也许不是很快，但内存效率肯定很高。

回复收藏 0 原文

╰沐子 2024-09-13 01:57:40

无法创建一个函数来为字符串生成唯一键，该键比该字符串短。
有一些数据结构可以解决您的任务。如果数据足够大，B 树可能适合。根据您输入的性质，可能有更有效的方法。

回复收藏 0 原文

客…行舟 2024-09-13 01:57:40

可靠地删除重复项几乎与对文件进行排序一样困难。正如另一个答案所示，如果不将每个字符串的完整副本保留在内存中，就没有保证精确检测重复项的方法，这似乎正是您想要避免的。

您可以保留哈希码的内存或磁盘索引，并使用它们从文件存储中检索实际字符串进行比较，但这本质上会重复数据库能够为您做的事情。

另一种方法是在文件完成后对其进行后处理。 UNIX 排序命令非常适合处理大文件（如何UNIX 排序命令可以对非常大的文件进行排序吗？），所以我希望标准 UNIX 命令行方法能够合理工作：（

    sort my-file-of-strings.txt | uniq > my-filtered-file-of-strings.txt

请注意，在传递给 uniq 删除重复项之前，必须先对文件进行排序）。

如果您没有可用的这些工具（或等效工具），那么您始终可以尝试自己实现外部合并排序的某些变体。

Reliably removing duplicates is pretty much as difficult as sorting the file. As another answer indicates, there is no guaranteed way of precisely detecting duplicates without keeping a full copy of each string in memory, which seems to be exactly what you're trying to avoid.

You could keep an in-memory or on-disk index of hashcodes, and use these to retrieve actual strings from file storage for comparison, but this would essentially duplicate what a database would be able to do for you.

An alternative is to post-process the file once it's complete. The UNIX sort command is pretty good at large files (How could the UNIX sort command sort a very large file?), so I'd expect the standard UNIX command-line approach to work reasonably:

    sort my-file-of-strings.txt | uniq > my-filtered-file-of-strings.txt

(Note that files have to be sorted first before passing to uniq to remove duplicates).

If you haven't got these tools (or equivalents) available, then you can always try implementing some variant of an external merge sort yourself.

回复收藏 0 原文

背叛残局 2024-09-13 01:57:40

如果字符串来自固定的可能字符串池 (N)，则可以使用最小完美哈希来创建数组 0...N-1。由完美哈希函数确定的槽中的零意味着到目前为止还没有看到该字符串。

否则，在大量内存和迄今为止建议的解决方案之外，唯一有效的正确方法是在决定将字符串写入文件之前重新读取文件。

您可以通过文件的内存映射部分来尽可能有效地完成此操作。

回复收藏 0 原文

(り薆情海 2024-09-13 01:57:40

我真的认为最好的解决方案是 - 正如其他人已经建议的那样 - 使用数据库。

如果由于某种原因您无法使用数据库，您仍然可以使用哈希码。肯定会有碰撞。只需添加一些代码，以便当您检测到重复的哈希码时，您的程序会检查该文件以确定它是真正的重复项还是冲突。

回复收藏 0 原文

~没有更多了~

关于作者

伴梦长久

暂无简介

0 文章

0 评论

21 人气

关注发私信

友情链接

文江博客

java中为字符串构造一个唯一的数字

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（6）

关于作者

相关话题

热门标签

推荐作者

lioqio

Single

禾厶谷欠

alipaysp_2zg8elfGgC

qq_N6d4X7

放低过去

友情链接

java中为字符串构造一个唯一的数字

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（6）

关于作者

相关话题

热门标签

推荐作者

lioqio

Single

禾厶谷欠

alipaysp_2zg8elfGgC

qq_N6d4X7

放低过去

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。