我应该阻止机器人*吗?

发布于 2024-09-12 03:20:08 字数 398 浏览 6 评论 0原文

本月 28 日,我们的一个站点的带宽受到严重干扰。 cpanel 只跟踪日常访问日志并且没有存档它们(现在是这样),使用 aw stats 我发现我们的机器人流量如下:

未知机器人(由“bot*”识别)91541+417 4.78 GB 28 Jul 2010 - 07 :12

我已使用 htaccess 阻止了 bot*:

RewriteCond %{HTTP_USER_AGENT} ^bot* [NC]
重写规则.* - [F,L]

我被告知这可能会干扰流量,我该怎么办?我应该等待它再次发生然后检查日志中的 IP/代理名称还是继续阻止未知的机器人?

我对我拥有的 googlebot 条目进行了 dns 查找,他们检查了。

Bandwidth on one of our sites was severely messed with on the 28th of this month. The cpanel only tracks daily access logs and didnt archive them(it does now), using aw stats I found our bot traffic to be as follows:

Unknown robot (identified by 'bot*') 91541+417 4.78 GB 28 Jul 2010 - 07:12

I have blocked bot* using htaccess:

RewriteCond %{HTTP_USER_AGENT} ^bot* [NC]
RewriteRule .* - [F,L]

I have been informed that this can interfere with traffic, what should I do? should I wait for it to happen again then check logs for IP/Agent name or continue to block unkown robots?

I did a dns lookup on the googlebot entries I do have and they check out.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

顾忌 2024-09-19 03:20:08

您应该使用机器人排除令。它可能不是垃圾邮件机器人,如果您在 robots.txt 中放置了一个条目并且它仍然出现在您的网站上,那么您就会知道它是否是垃圾邮件机器人。

顺便说一句,googlebot 是谷歌的索引器。它将遵守 robots.txt(机器人排除令)。它还提供网站站长工具允许您配置谷歌与您的网站交互的方式。

您可以为犯错的机器人设置陷阱。在主页上创建一个不可见的链接(通过 CSS)。配置您的 robots.txt 以指示所有机器人忽略该链接并记录忽略该链接的机器人。

如果您安装了防火墙或其他基础设施,请将这些 IP 地址排除在以后使用您的站点的范围之外。

You should use the Robots Exclusion Order. It may not be a spam bot, if you place an entry in the robots.txt and it's still turning up at your site then you will know if it is or not.

By the way, googlebot is the indexer for google. It will adhere to the robots.txt (robot exclusion order). It also provides webmaster tools to allow you to configure how google interacts with your site.

You could lay a trap for the errant bot. Make a link on your home page that is invisble (via css). Configure your robots.txt to instruct all bots to ignore the link and log the bots that do.

If you have a firewall or some other infrastruture in place, exclude these IP addresses from future use of your site.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文