如何防止Googlebot淹没网站?

发布于 2024-08-03 01:33:09 字数 108 浏览 8 评论 0原文

我正在中间的专用服务器上运行一个内容很多但流量很少的网站。

有时,Googlebot 会踩踏我们,导致 Apache 耗尽内存,导致服务器崩溃。

我怎样才能避免这种情况?

I'm running a site with a lot of content, but little traffic, on a middle-of-the-road dedicated server.

Occasionally, Googlebot will stampede us, resulting in Apache maxing out its memory, and causing the server to crash.

How can I avoid this?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(6

等数载,海棠开 2024-08-10 01:33:09
  • 在 google 网站管理员工具中注册,验证您的网站并限制 google bot 提交
  • 站点地图
  • 阅读 google 指南:(if-Modified-Since HTTP 标头)
  • 使用 robot.txt 要限制机器人对网站某些部分的访问,
  • 请编写一个脚本,每隔 $[时间段] 更改 robots.txt,以确保机器人永远无法同时抓取太多页面,同时确保它可以抓取总体所有内容
  • register at google webmaster tools, verify your site and throttle google bot down
  • submit a sitemap
  • read the google guildelines: (if-Modified-Since HTTP header)
  • use robot.txt to restrict access from to bot to some parts of the website
  • make a script that changes the robot.txt each $[period of time] to make sure the bot is never able to crawl too many pages at the same time while making sure it can crawl all the content overall
凝望流年 2024-08-10 01:33:09

您可以使用谷歌的网站管理员工具设置您的网站的抓取方式。具体请查看此页面:更改 Google 的抓取速度

您还可以使用 robots.txt 文件限制 Google 机器人搜索的页面。有一个可用于crawl-delay的设置,但它似乎是Google 不认可

You can set how your site is crawled using google's webmaster tools. Specifically take a look at this page: Changing Google's crawl rate

You can also restrict the pages that the google bot searches using a robots.txt file. There is a setting available for crawl-delay, but it appears that it is not honored by google.

友欢 2024-08-10 01:33:09

使用 Google 网站管理员工具注册您的网站,该工具可让您设置 googlebot 应尝试对您的网站建立索引的频率和每秒请求数。 Google 网站管理员工具还可以帮助您创建 robots.txt 文件以减少网站的负载

Register your site using the Google Webmaster Tools, which lets you set how often and how many requests per second googlebot should try to index your site. Google Webmaster Tools can also help you create a robots.txt file to reduce the load on your site

南风几经秋 2024-08-10 01:33:09

请注意,您可以通过 Google 网站管理员工具(在“网站设置”下)设置抓取速度,但它们只保留该设置六个月!因此,您必须每六个月登录一次才能重新设置。

Google 中的此设置已更改。该设置现在仅保存 90 天(3 个月,而不是 6)。

Note that you can set the crawl speed via Google Webmaster Tools (under Site Settings), but they only honour the setting for six months! So you have to log in every six months to set it again.

This setting was changed in Google. The setting is only saved for 90 days now (3 months, not 6).

若沐 2024-08-10 01:33:09

您可以在谷歌的网站管理员工具中配置抓取速度。

You can configure the crawling speed in google's webmaster tools.

命硬 2024-08-10 01:33:09

要限制抓取速度,请执行以下操作:

  • 在 Search Console 主页上,点击您想要的网站。

  • 单击齿轮图标“设置”,然后单击“站点设置”。

  • 在“抓取速率”部分中,选择所需的选项,然后根据需要限制抓取速率。

    在“抓取速率”部分中,选择所需的选项

新的抓取速度的有效期为 90 天。

To limit the crawl rate:

  • On the Search Console Home page, click the site that you want.

  • Click the gear icon Settings, then click Site Settings.

  • In the Crawl rate section, select the option you want and then limit the crawl rate as desired.

The new crawl rate will be valid for 90 days.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文