当前位置：文江博客话题详情

java高效去重

发布于 2024-08-23 14:52:56 字数 101 浏览 16 评论 0原文

假设您有一个很大的文本文件。每行包含一个电子邮件 ID 和一些其他信息（比如一些产品 ID）。假设文件中有数百万行。您必须将此数据加载到数据库中。如何有效地重复数据删除（即消除重复数据）？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

城歌 2024-08-30 14:52:57

疯狂的行数

使用 Map&Reduce 框架（例如 Hadoop）。这是一种成熟的分布式计算，因此除非您拥有 TB 级的数据，否则它就有点过大了。 ( j/k :) )

无法容纳内存中的所有行

即使结果也容纳不下：使用合并排序，将中间数据保存到磁盘。合并时，您可以丢弃重复项（可能是此示例有帮助）。如果需要的话，这可以是多线程的。
结果将适合：您可以使用行迭代器或其他东西并不断添加到此 HashSet 中，而不是读取内存中的所有内容然后将其放入 HashSet 中（见下文）。您可以使用 ConcurrentHashMap 并使用多个线程来读取文件并添加到此 Map。另一个多线程选项是使用 ConcurrentSkipListSet。在这种情况下，您将实现compareTo()而不是equals()/hashCode()（compareTo()==0表示重复）并继续添加到此SortedSet。

适合内存

设计一个保存数据的对象，实现一个好的 equals()/hashCode() 方法，并将它们全部放入 HashSet 中。
或者使用上面给出的方法（尽管您可能不想持久保存到磁盘）。

哦，如果我是你，我无论如何都会对数据库施加唯一约束......

回复收藏 0 原文

烟酉 2024-08-30 14:52:57

我将从显而易见的答案开始。创建一个哈希图，并将电子邮件 ID 作为键，将其余信息放入值（或创建一个对象来保存所有信息）。当您到达新行时，检查该键是否存在，是否移动到下一行。最后使用 HashMap 写出所有 SQL 语句。我确实同意 eqbridges 的观点，即如果您有“无数”行，那么内存限制将很重要。

回复收藏 0 原文

‘画卷フ 2024-08-30 14:52:57

您有两个选择，

用 Java 实现：您可以将诸如 HashSet 之类的东西放在一起进行测试 - 如果集合中不存在每个项目，则为每个项目添加电子邮件 ID。
在数据库中执行：在表上放置唯一约束，这样dups就不会添加到表中。这样做的一个额外好处是，您可以重复该过程并从以前的运行中删除重复项。

回复收藏 0 原文

我不会写诗 2024-08-30 14:52:57

看看 Duke (https://github.com/larsga/Duke) 快速重复数据删除和记录用java编写的链接引擎。它使用Lucene进行索引并减少比较次数（以避免不可接受的笛卡尔积比较）。它支持最常见的算法（编辑距离、jaro winkler 等），并且具有极强的可扩展性和可配置性。

回复收藏 0 原文