如何禁止 robots.txt 中的特定页面
我正在我的网站上创建两个非常相似但用途不同的页面。一是感谢用户留下评论,二是鼓励用户订阅。
我不想要重复的内容,但我确实希望页面可用。我可以将站点地图设置为隐藏吗?我会在 robots.txt 文件中执行此操作吗?
禁止看起来像这样:
禁止: /wp-admin
我如何自定义特定页面,例如:
I am creating two pages on my site that are very similar but serve different purposes. One is to thank users for leaving a comment and the other is to encourage users to subscribe.
I don't want the duplicate content but I do want the pages to be available. Can I set the sitemap to hide one? Would I do this in the robots.txt file?
The disallow looks like this:
Disallow: /wp-admin
How would I customize to the a specific page like:
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(3)
在 robots.txt 中
查看 last.fm robots.txt 文件 寻求灵感。
美元符号标志着结束。我们需要这样,以便以相同 url 开头的其他页面(例如 /thank-you-for-commenting-another-page)将被索引。
in robots.txt
Take a look at last.fm robots.txt file for inspiration.
The dollar sign marks an end. We need that so other pages starting with the same url, for example /thank-you-for-commenting-another-page, will be indexed.
robots.txt 文件使用正则表达式来匹配页面,因此为了避免定位超出您预期的页面,您可能需要在页面名称末尾添加 $:
如果不这样做,您也会禁止页面 /thank-你也对此发表评论
robots.txt files use regular expressions to match pages, so to avoid targeting more pages than you intend, you may need to add a $ to the end of the page name:
If you don't you'll also disallow page /thank-you-for-commenting-on-this-too
您还可以在 robots.txt 文件中添加带有扩展名的特定页面。测试时,可以指定测试页面路径,禁止机器人抓取。
例如:
第一个
Disallow: /index_test.php
将禁止机器人抓取根文件夹中的测试页面。第二个
Disallow: /products/test_product.html
将禁止“products”文件夹下的 test_product.html。最后一个示例
Disallow: /products/
将禁止抓取整个文件夹。You can also add a specific page with extension in robots.txt file. In case of testing, you can specify the test page path to disallow robots from crawling.
For examples:
The first one
Disallow: /index_test.php
will disallow bots from crawling the test page in root folder.Second
Disallow: /products/test_product.html
will disallow test_product.html under the folder 'products'.Finally the last example
Disallow: /products/
will disallow the whole folder from crawling.