Robots.txt 禁止所有内容并仅允许网站/页面的特定部分。 是“允许”吗? Ultraseek 和 FAST 等爬虫支持吗?
只是想知道是否可以禁止整个网站的爬虫程序而只允许特定的网页或部分? FAST 和 Ultraseek 等爬虫程序是否支持“允许”?
Just wanted to know if it is possible to disallow the whole site for crawlers and allow only specific webpages or sections?
Is "allow" supported by crawlers like FAST and Ultraseek?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
有一个允许指令,但不能保证特定的机器人会支持它(就像无法保证机器人会首先检查您的 robots.txt 一样)。 您可以通过检查您的博客来判断特定机器人是否仅对您允许的网站部分进行索引。
仅允许网站的特定页面或部分的格式可能如下所示:
这(应该)防止机器人抓取或索引除 /public/section1 下的内容之外的任何内容
There is an Allow Directive however there's no guarantee that a particular bot will support it (much like there's no guarantee a bot will even check your robots.txt to begin with). You could probably tell by examining your weblogs whether or not specific bots were indexing only the parts of your website that you allow.
The format for allowing just a particular page or section of your website might look like:
This (should) prevent bots from crawling or indexing anything except for content under /public/section1