分析网站AccessLog如何过滤蜘蛛

发布于 2022-08-24 10:59:38 字数 178 浏览 30 评论 0

分析网站的access_log总是有很多噪音日志,有搜索引擎的蜘蛛,也有订阅源什么的,非常麻烦
我现在的做法是用UA的一些关键字做过滤,维护一个过滤列表,每分析一条就去过滤一次。
我想问问,还有没有其他更好的方案,因为过滤UA的方法,当列表很大的时候,效率非常差,而且这个列表也不一定全,需要定时去观察数据,更新列表。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

耀眼的星火 2022-08-31 10:59:38

access log记录时就过滤掉已知bot的访问记录写入单独log文件

你的背包 2022-08-31 10:59:38

来来来,我给你看看这个简单粗暴的命令:

#!/usr/bin/env bash
watch "tail -5000 /srv/log/nginx/xxx.log|awk '{print \$1}'|sort|uniq -c | sort -rn|head -50"
~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文