是否可以通过robots.txt控制抓取速度?

发布于 2024-12-10 02:18:01 字数 167 浏览 1 评论 0原文

我们可以在 robots.txt 中告诉机器人抓取或不抓取我们的网站。另一方面,我们可以控制Google Webmasters中的抓取速度(Google bot抓取网站的速度)。我想知道是否可以通过 robots.txt 限制爬虫活动,

我的意思是接受机器人爬行页面,但按时间、页面或大小限制它们的存在!

We can tell bots to crawl or not to crawl our website in robot.txt. On the other hand, we can control the crawling speed in Google Webmasters (how much Google bot crawls the website). I wonder if it is possible to limit the crawler activities by robots.txt

I mean accepting bots to crawl pages but limit their presence by time or pages or size!

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(4

多彩岁月 2024-12-17 02:18:01

您可以在 robots.txt 中使用一项指令,它是“爬行延迟”。

Crawl-delay: 5

表示机器人每 5 秒爬行的页面数不应超过一页。
但据我所知,robots.txt 并未正式支持该指令。

还有一些机器人根本不真正接受 count robots.txt 文件。
因此,即使您禁止访问某些页面,它们仍然可能会被一些机器人抓取,当然不是像谷歌这样最大的机器人。

例如,百度可能会忽略 robots.txt,但这并不确定。

我没有这个信息的官方来源,所以你可以谷歌一下。

There is one directive you can use in robots.txt, it's "Crawl-delay".

Crawl-delay: 5

Meaning robots should be crawling no more than one page per 5 seconds.
But this directive is not officially supported by robots.txt, as much as I know.

Also there are some robots that don't really take in count robots.txt file at all.
So even if you have disallowed access to some pages, they still may get crawled by some robots, of course not the largest ones like Google.

Baidu for example could ignore robots.txt, but that's not for sure.

I've got no official source for this info, so you can just Google it.

我乃一代侩神 2024-12-17 02:18:01

不是我发现的。 Robots.txt 是放置您希望机器人包含或排除的目录或文件的位置。如果有办法的话,它还不是标准的。请记住,创建机器人的人可以选择是否尊重 robots.txt,但并非所有机器人都尊重此文件。

目前,如果有降低抓取速度、网站停留时间等的设置,它将以逐个机器人为基础,并且不会标准化为 robots.txt 值。

更多信息:http://www.robotstxt.org/robotstxt.html

Not that I have found. Robots.txt is a place to put directories or files you would like bots to include or exclude. If there is a way it is not standard yet. Remember that whoever creates the bots chooses whether or not to respect robots.txt, not all bots respect this file.

Currently if there were settings to reduce crawl speed, time on site, etc. it would be on a bot by bot basis and not standardized into robots.txt values.

More info: http://www.robotstxt.org/robotstxt.html

疾风者 2024-12-17 02:18:01

我知道这是一个非常老的问题,但我想补充一点,根据谷歌文档,这里是官方答案:

您通常可以在 Google 中调整抓取速度设置
网站站长工具帐户。<​​/p>

根据:https://developers.google.com/网站管理员/control-crawl-index/docs/faq#h04

在网站管理员工具中,您可以按照以下步骤操作:

  1. 在 Search Console 主页上,点击您想要的网站。

  2. 单击齿轮图标 ,然后单击“站点设置”。

  3. 在“抓取速率”部分中,选择所需的选项,然后根据需要限制抓取速率。

新的抓取速度的有效期为 90 天。

参考:Google 支持问题

I know this is a really old question, but I wanted to add that according to the google documentation here is the official answer:

You can generally adjust the crawl rate setting in your Google
Webmaster Tools account.

per: https://developers.google.com/webmasters/control-crawl-index/docs/faq#h04

From within webmaster-tools you can follow these steps:

  1. On the Search Console Home page, click the site that you want.

  2. Click the gear icon , then click Site Settings.

  3. In the Crawl rate section, select the option you want and then limit the crawl rate as desired.

The new crawl rate will be valid for 90 days.

ref: google support question

可爱咩 2024-12-17 02:18:01

不可以,robots.txt 文件只能指定您不希望将哪些页面编入索引以及这些规则也适用于哪些用户代理。您无法对该文件执行任何其他操作。

一些网站使用 AllowSitemap 指令,但根据官方网站,它们似乎不是有效的指令,即使某些爬虫可能会尊重它们。

No, the robots.txt file can only specify which pages you don't want to be indexed and what user agents those rules apply too. You can't do anything else with the file.

Some websites use the Allow and Sitemap directives, but they do not appear to be valid directives according to the official website, even though some crawlers may respect them.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文