当前位置：文江博客话题详情

grep：计算所有模式的所有匹配项

发布于 2024-12-11 05:29:27 字数 265 浏览 0 评论 0原文

我有数以万计的（固定）模式，我想在一个非常大的文件中找到匹配的模式。我想计算每个模式的点击总数。我在 grep 文档中找不到任何表明这是可能的内容。我的设置看起来像这样：

gunzip -c bigfile.txt.gz | grep -c -fpatterns.txt

当然，这会计算与 patterns.txt 中匹配任何的行，而我想要的是单独的命中计数每个图案。在命令行上使用 grep 可以实现类似的操作吗？或者我必须写一个程序？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

执手闯天涯 2024-12-18 05:29:27

我不知道如何同时对所有模式执行此操作，但您可以编写一个 bash 脚本，一次读取一个模式并执行 grep | 。 wc -l 为每一个。

回复收藏 0 原文

一身软味 2024-12-18 05:29:27

像这样的事情怎么样：

gunzip -c bigfile.txt.gz | grep -f patterns.txt | sort | uniq -c

排序可能有点大，因为它将保存整个输出。不过，带有哈希值的快速 perl/python/... 脚本可以大大减少这种情况。

$ grep -f pats.txt a.txt  | ./t.rb 
a 3
b 3
c 2

这是避免排序的脚本，看看它是否真的加快了速度。

#!/usr/bin/env ruby
results = {}
while gets
  line = $_.chomp
  results[line] ||= 0
  results[line]+= 1
end
results.each { |k,v| puts ""#{k} #{v}"}

How about something like so:

gunzip -c bigfile.txt.gz | grep -f patterns.txt | sort | uniq -c

The sort may be kind of large as it'll save the entire output. A quick perl/python/... script with a hash could cut that down substantially though.

$ grep -f pats.txt a.txt  | ./t.rb 
a 3
b 3
c 2

Here's the script that avoids the sort, see if it actually speeds things up.

#!/usr/bin/env ruby
results = {}
while gets
  line = $_.chomp
  results[line] ||= 0
  results[line]+= 1
end
results.each { |k,v| puts ""#{k} #{v}"}

回复收藏 0 原文

~没有更多了~

关于作者

孤独难免

暂无简介

0 文章

0 评论

22 人气

关注发私信

已经忘了多久

文章 0 评论 0

关注

15867725375

文章 0 评论 0

关注

LonelySnow

文章 0 评论 0

关注

走过海棠暮

文章 0 评论 0

关注

轻许诺言

文章 0 评论 0

关注

信馬由缰

文章 0 评论 0

友情链接

文江博客

grep：计算所有模式的所有匹配项

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

已经忘了多久

15867725375

LonelySnow

走过海棠暮

轻许诺言

信馬由缰

友情链接

grep：计算所有模式的所有匹配项

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

已经忘了多久

15867725375

LonelySnow

走过海棠暮

轻许诺言

信馬由缰

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。