如何删除多个文件中的重复行?
我在不同的目录和子目录中有 7 个具有以下名称的文件,
tag0.txt, tag1.txt, tag2.txt, tag3.txt, tag01.txt, tag02.txt and tag03.txt
其中一些文件具有重复的行。如何删除重复行
?请注意,每个文件中的行未排序,每个文件的长度范围为 500 到 1000 行。
任何帮助将不胜感激。
谢谢
I have 7 files with the following names in different directories and subdirectories
tag0.txt, tag1.txt, tag2.txt, tag3.txt, tag01.txt, tag02.txt and tag03.txt
Some of these files have duplicated rows. How can I delete the duplicated rows
? Note that the rows in each file are not sorted and the length of each file range from 500 to 1000 rows.
Any help would be much appreciated.
Thank you
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(4)
假设您想在每个文件的基础上删除重复项,以下内容不需要排序文件,因此不会扰乱行的顺序:
因为您的文件似乎位于不同的目录中最简单的方法可能是手动运行该命令 7 次。如果你真的想要,你可以像这样循环它:
Assuming you want to remove dupes on a per-file basis, the following doesn't require sorted files and thus doesn't mess with the order of the lines:
Since your files seem to be in different directories it's probably easiest to just run that command manually 7 times. If you really want to though you can loop it like this:
使用
sort
和uniq
命令,它们是 unix 实用程序use
sort
anduniq
command which are unix utilities注意,确实“直接”更改文件(就地编辑)。
Attention, does change the file "directly" ( in-place edit ).
bash 4.0++
bash 4.0++