当前位置：文江博客话题详情

在 Java 中检查 500 万行文件中的唯一行数据

发布于 2024-11-18 19:47:12 字数 165 浏览 6 评论 0原文

我有一个大文件，其中包含像 ID|VALUE 这样的行。

如果 ID 重复，则必须忽略该行。

如何有效地进行这项检查？
额外： ID很长（8字节）。我需要一个使用最少内存的解决方案。
谢谢大家的帮助。我现在能够增加堆空间并使用 Set 。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

绮烟 2024-11-25 19:47:12

您可以将数据存储在 TLongObjectHashMap 中或使用 TLongHashSet。这些类有效地存储基于原语的信息。

500 万个长值将使用 < TLongHashSet 中有 60 MB，但是 TLongObjectHashMap 也可以有效地存储您的值。

http://www.google.co.uk/search? q=TLongObjectHashMap

回复收藏 0 原文

说好的呢 2024-11-25 19:47:12

无论如何，您都必须将 ID 存储在某个地方才能检测重复项。在这里，我将使用 HashSet 及其 contains 方法。

回复收藏 0 原文

绮筵 2024-11-25 19:47:12

您必须读取整个文件，一次一行。您必须保留一组 ID，并将传入的 ID 与该组中已有的值进行比较。如果出现值，请跳过该行。

您自己编写了用例；这里没有魔法。

回复收藏 0 原文

调妓 2024-11-25 19:47:12

对我来说，这看起来像是一个典型的数据库任务。如果您的应用程序中使用了数据库，您可以利用它来完成您的任务。创建一个具有 UNIQUE INTEGER 字段的表并开始添加行；您将在重复的 ID 上遇到异常。数据库引擎将负责光标窗口和缓存，因此它适合您的内存预算。完成后，只需放下该桌子即可。

回复收藏 0 原文

破晓 2024-11-25 19:47:12

有两种基本解决方案；

首先，正如上面 duffymo 和 Andreas_D 所建议的，您可以将所有值存储在 Set 中。这为您提供了 O(n) 时间复杂度和 O(n) 内存使用量。

其次，如果 O(n) 内存太多，您可以通过牺牲速度在 O(1) 内存中完成。对于文件中的每一行，读取其之前的所有其他行，如果 ID 出现在当前行之前，则丢弃该行。

回复收藏 0 原文

[浮城] 2024-11-25 19:47:12

概率算法怎么样？

布隆过滤器...是一种节省空间的概率数据结构，用于测试元素是否是集合的成员。误报是可能的，但误报则不然。

回复收藏 0 原文

~没有更多了~

关于作者

有木有妳兜一样

暂无简介

文章

26 人气

关注发私信

知足的幸福

文章 0 评论 0

关注

我一向站在原地

文章 0 评论 0

关注

慕烟庭风

文章 0 评论 0

关注

秉忠贞之诚守退让之实

文章 0 评论 0

关注

小兔几

文章 0 评论 0

关注

mb_3y7WUgWY

文章 0 评论 0

友情链接

文江博客

在 Java 中检查 500 万行文件中的唯一行数据

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（6）

关于作者

相关话题

热门标签