阻止滥用机器人爬行?

发布于 2024-11-29 05:55:54 字数 228 浏览 1 评论 0原文

这是个好主意吗?

http://browsers.garykeith.com/stream.asp?RobotsTXT< /p>

滥用爬行是什么意思意思是?这对我的网站有什么坏处?

Is this a good idea??

http://browsers.garykeith.com/stream.asp?RobotsTXT

What does abusive crawling mean? How is that bad for my site?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

欢烬 2024-12-06 05:55:54

并不真地。无论如何,大多数“坏机器人”都会忽略 robots.txt 文件。

滥用爬行通常意味着抓取。这些机器人的出现是为了收集电子邮件地址或更常见的内容。

至于如何阻止他们?这确实很棘手,而且往往并不明智。反爬行技术往往不够完美,会给普通人带来问题。

可悲的是,就像零售业的“萎缩”一样,这是在网络上开展业务的成本。

Not really. Most "bad bots" ignore the robots.txt file anyway.

Abuse crawling usually means scraping. These bots are showing up to harvest email addresses or more commonly, content.

As to how you can stop them? That's really tricky and often not wise. Anti-crawl techniques have a tendency to be less than perfect and cause problems for regular humans.

Sadly, like "shrinkage" in retail, it's a cost of doing business on the web.

悍妇囚夫 2024-12-06 05:55:54

用户代理(包括爬虫)没有义务尊重您的 robots.txt。您能做的最好的事情就是尝试识别滥用访问模式(通过网络日志等),并阻止相应的 IP。

A user-agent (which includes crawlers) is under no obligation to honour your robots.txt. The best you can do is try to identify abusive access patterns (via web-logs, etc.), and block the corresponding IP.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文