Robots.txt 禁止某些文件夹名称
我想禁止机器人抓取名称为 this-folder
的 url 中任何位置的任何文件夹。
不允许的示例:
http://mysite.com/this-folder/
http://mysite.com/houses/this-folder/
http://mysite.com/some-other/this-folder/
http://mysite.com/no-robots/this-folder/
这是我的尝试:
Disallow: /.*this-folder/
这会起作用吗?
I want to disallow robots from crawling any folder, at any position in the url with the name: this-folder
.
Examples to disallow:
http://mysite.com/this-folder/
http://mysite.com/houses/this-folder/
http://mysite.com/some-other/this-folder/
http://mysite.com/no-robots/this-folder/
This is my attempt:
Disallow: /.*this-folder/
Will this work?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
官方不支持通配符和正则表达式:
http://www.robotstxt.org/robotstxt.html
但显然有些搜索引擎支持这一点。
Officially globbing and regular expressions are not supported:
http://www.robotstxt.org/robotstxt.html
but apparently some search engines support this.