Robots.txt 禁止所有内容并仅允许网站/页面的特定部分。 是“允许”吗? Ultraseek 和 FAST 等爬虫支持吗?

发布于 2024-07-11 00:36:07 字数 73 浏览 4 评论 0原文

只是想知道是否可以禁止整个网站的爬虫程序而只允许特定的网页或部分? FAST 和 Ultraseek 等爬虫程序是否支持“允许”?

Just wanted to know if it is possible to disallow the whole site for crawlers and allow only specific webpages or sections?
Is "allow" supported by crawlers like FAST and Ultraseek?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

蓝礼 2024-07-18 00:36:07

有一个允许指令,但不能保证特定的机器人会支持它(就像无法保证机器人会首先检查您的 robots.txt 一样)。 您可以通过检查您的博客来判断特定机器人是否仅对您允许的网站部分进行索引。

仅允许网站的特定页面或部分的格式可能如下所示:

Allow: /public/section1/
Disallow: /

这(应该)防止机器人抓取或索引除 /public/section1 下的内容之外的任何内容

There is an Allow Directive however there's no guarantee that a particular bot will support it (much like there's no guarantee a bot will even check your robots.txt to begin with). You could probably tell by examining your weblogs whether or not specific bots were indexing only the parts of your website that you allow.

The format for allowing just a particular page or section of your website might look like:

Allow: /public/section1/
Disallow: /

This (should) prevent bots from crawling or indexing anything except for content under /public/section1

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文