网络蜘蛛和 HTTP 身份验证
我有一个管理应用程序,需要通过 SSL 进行 HTTP 身份验证。我已将管理应用程序的路径包含在我网站的 robots.txt 文件中。
我宁愿在任何地方都看不到管理应用程序的路径。仅 HTTP 身份验证会阻止网络蜘蛛对页面建立索引吗?
I have an admin application that requires HTTP auth over SSL. I've included the path to the admin app in my site's robot.txt file.
I would rather not have the path to the admin app visible anywhere. Will the HTTP auth alone stop web spiders from indexing the page?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
如果您使用合适的 4xx(但不是 HTTP 410 或 HTTP 404)HTTP 状态代码进行响应,那么是的,HTTP 身份验证将阻止 google 对此页面建立索引。
请参阅:http://www.google.com/support/ webmasters/bin/answer.py?answer=40132
另外,您可以发送
HTTP 标头以进一步确保。
请参阅:http://code.google.com/web/controlcrawlindex/docs/ robots_meta_tag.html
哦,是的,在 robots.txt 中包含 URL 使得谷歌更有可能索引该页面...... robots.txt 是一个爬行指令,它基本上说:不要获取该 url 的内容。所以谷歌不知道它是一个 HTTP 身份验证,但由于爬行对于索引来说是可选的(是的,真的),因此该 url 可能(而且这是一个非常大的可能)无论如何都会出现在谷歌搜索结果中。我在这里更详细地解释了 google(bot) 漏斗 Google 未索引的页面< /a>
正确的 HTTP 状态标头和 x-robot-tag 更适合确保 url 不会显示在 google 中(但如果 robots.txt 指令保留,则两者都无用)到位)
if you respond with a suitable 4xx (but not HTTP 410 or HTTP 404) HTTP status code, then yes, HTTP auth will stop google from indexing this page.
see: http://www.google.com/support/webmasters/bin/answer.py?answer=40132
additionally you could send the
HTTP header to make extra sure.
see: http://code.google.com/web/controlcrawlindex/docs/robots_meta_tag.html
oh yeah, including the URL in the robots.txt makes it even more likely that google indexes the page.... the robots.txt is a crawling directive, it basically says: do not fetch the content of that url. so google does not know that it's an HTTP auth, but as crawling is optional for indexing (yeah, really), the url might (and that is a very big might) shop up anyway in the google search results. i explained the google(bot) funnel in more detail here pages not indexed by Google
the right HTTP status header and the x-robot-tag are better suited to make sure an url does not show up in google (but both are useless if the robots.txt directive stays in place)