阻止谷歌索引
嗨,先生们,阻止谷歌在搜索引擎中显示文件夹的最佳方法是什么?例如 www.example.com/support ,如果我希望支持文件夹在谷歌中消失,我该怎么办? 我做的第一件事是放置一个“robots.txt”文件并包含此代码
User-agent: *
Disallow: /support/etc
,但结果是一场彻底的灾难,除非我删除 robots.txt,否则我无法再使用支持页面 最好的办法是什么?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(3)
robots.txt 不应影响页面的运行方式。如果有疑问,您可以使用工具生成 http ://www.searchenginepromotionhelp.com/m/robots-text-creator/simple-robots-creator.php 或 http://www.seochat.com/seo-tools/robots-generator/
当在 robots 文件中禁止时,您可以显式指定一个文件或子文件夹,而不仅仅是一个文件夹。
您还可以在文档中使用元标记来告诉爬虫不要使用它
robots.txt shouldnt affect the way your page function. If in doubt, you can use tools to generate like http://www.searchenginepromotionhelp.com/m/robots-text-creator/simple-robots-creator.php or http://www.seochat.com/seo-tools/robots-generator/
When dissallowing in robots file, you can explicitly specify a file or subfolder rather than just a folder.
You can also use meta tag in your document to tell the crawler not to use it
robots.txt
文件是执行此操作的正确方法。您的示例对于阻止/support/etc
目录及其后代是正确的。无法再使用支持页面 robots.txt 文件会影响您网站的运行方式是没有意义的,当然它永远不应该影响人类可以访问哪些页面。我怀疑还有其他问题 - 检查您的服务器日志以查看记录了哪些类型的错误。
A
robots.txt
file is the right way to do this. Your example is correct for blocking the/support/etc
directory and its descendants.It doesn't make sense that a robots.txt file would affect the way your site functions, and certainly it should never affect which pages can be accessed by a human. I suspect something else is awry -- check your server logs to see what kinds of errors are being recorded.
虽然不是限制机器人访问的首选方法,但 Google 谈到使用 noindex 元标记 此处。如果各个页面被您自己的网站以外的网站链接到,这也将阻止显示这些页面。
关于限制机器人访问您网站的精彩讨论可以在此处找到。
While not the preferred method of limiting robot access, Google talks about using a noindex meta tag here. This will also prevent the various pages from showing up if they are linked to by a site other than your own.
A good discussion of limiting bots that visit your site can be found here.