当前位置：文江博客话题详情

删除文件中的重复数据

发布于 2024-11-09 04:41:03 字数 89 浏览 0 评论 0原文

我在提出算法时遇到问题。伙计们，你们能帮我一下吗？

我有一个很大的文件，因此无法立即加载。存在重复数据（通用数据，可能是字符串）。我需要删除重复项。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

舟遥客 2024-11-16 04:41:03

一种简单但缓慢的解决方案是读取 HashSet 中的第 1 GB。读取文件的顺序其余部分并删除文件中的重复字符串。比读取内存中的第二个千兆位（哈希集）并删除文件中的重复项，一次又一次......
它很容易编程，如果你只想做一次就足够了。

回复收藏 0 原文

北陌 2024-11-16 04:41:03

您可以计算每个记录的哈希值并将其保存在 Map> 中

读取构建地图的文件，如果您发现 HashKey 存在于您寻求定位的地图中，请仔细检查（如果不相等，则将该位置添加到映射集中）

回复收藏 0 原文

女皇必胜 2024-11-16 04:41:03

第二种解决方案：

创建新文件，在其中写入对<字符串，原始文件中的位置>
您将根据字符串对大文件使用经典排序（对大文件进行排序 = 对内存中文件的小部分进行排序，然后将它们合并在一起） - 在此期间，您将删除重复项，
然后重建原始顺序 = 您将再次对其进行排序，但是根据“原始文件中的位置”

回复收藏 0 原文

暮年 2024-11-16 04:41:03

取决于输入在文件中的放置方式；如果每一行都可以用行数据表示；

另一种方法是使用数据库服务器，将数据插入具有唯一值列的数据库表中，从文件中读取并插入到数据库中。最后数据库将包含所有唯一的行/行。

回复收藏 0 原文

~没有更多了~

关于作者

战皆罪

暂无简介

0 文章

0 评论

22 人气

关注发私信

lorenzathorton8

文章 0 评论 0

关注

Zero

文章 0 评论 0

关注

萧瑟寒风

文章 0 评论 0

关注

mylayout

文章 0 评论 0

关注

tkewei

文章 0 评论 0

关注

17818769742

文章 0 评论 0

友情链接

文江博客

删除文件中的重复数据

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签