当前位置：文江博客话题详情

AWK 去重 linux运维去重复

awk对多个接近100g的文件进行去重

发布于 2022-09-04 13:46:17 字数 200 浏览 25 评论 0

a.txt和b.txt一个90gb 一个80gb
我的机器只有32G的内存
目前用的办法是搜来的

awk '!a[$0]++' a.txt b.txt > c.txt

然后没几分钟内存直接撑爆
大概c.txt生成到9个G左右,awk的cpu占用率变成0% 再也不动了
请教下有没有办法解决

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（2）

陌伤ぢ 2022-09-11 13:46:17

我自己找到了..

sort -us --parallel=16 dup.txt -o uniq.txt

颜 2022-09-11 13:46:17

这样写要把所有的不重复的行读入内存，90G 和 80G 如果有大量不重复的显然是不行的。

用你熟悉的语言用 B- 树实现比较好。
如果输出顺序没有限制的话，用外排算法然后uniq比较简单。

~没有更多了~

关于作者

逆光下的微笑

暂无简介

文章

评论

27 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

佚名

文章 0 评论 0

羁客

文章 0 评论 0

天天爱笑的徐老师

文章 0 评论 0

星

文章 0 评论 0

夏日落

文章 0 评论 0

隐诗

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文