网络蜘蛛和 HTTP 身份验证

发布于 2024-11-02 12:46:29 字数 133 浏览 0 评论 0原文

我有一个管理应用程序,需要通过 SSL 进行 HTTP 身份验证。我已将管理应用程序的路径包含在我网站的 robots.txt 文件中。

我宁愿在任何地方都看不到管理应用程序的路径。仅 HTTP 身份验证会阻止网络蜘蛛对页面建立索引吗?

I have an admin application that requires HTTP auth over SSL. I've included the path to the admin app in my site's robot.txt file.

I would rather not have the path to the admin app visible anywhere. Will the HTTP auth alone stop web spiders from indexing the page?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

燃情 2024-11-09 12:46:29

如果您使用合适的 4xx(但不是 HTTP 410 或 HTTP 404)HTTP 状态代码进行响应,那么是的,HTTP 身份验证将阻止 google 对此页面建立索引。

请参阅:http://www.google.com/support/ webmasters/bin/answer.py?answer=40132

另外,您可以发送

X-Robots-Tag: noindex

HTTP 标头以进一步确保。

请参阅:http://code.google.com/web/controlcrawlindex/docs/ robots_meta_tag.html

哦,是的,在 robots.txt 中包含 URL 使得谷歌更有可能索引该页面...... robots.txt 是一个爬行指令,它基本上说:不要获取该 url 的内容。所以谷歌不知道它是一个 HTTP 身份验证,但由于爬行对于索引来说是可选的(是的,真的),因此该 url 可能(而且这是一个非常大的可能)无论如何都会出现在谷歌搜索结果中。我在这里更详细地解释了 google(bot) 漏斗 Google 未索引的页面< /a>

正确的 HTTP 状态标头和 x-robot-tag 更适合确保 url 不会显示在 google 中(但如果 robots.txt 指令保留,则两者都无用)到位)

if you respond with a suitable 4xx (but not HTTP 410 or HTTP 404) HTTP status code, then yes, HTTP auth will stop google from indexing this page.

see: http://www.google.com/support/webmasters/bin/answer.py?answer=40132

additionally you could send the

X-Robots-Tag: noindex

HTTP header to make extra sure.

see: http://code.google.com/web/controlcrawlindex/docs/robots_meta_tag.html

oh yeah, including the URL in the robots.txt makes it even more likely that google indexes the page.... the robots.txt is a crawling directive, it basically says: do not fetch the content of that url. so google does not know that it's an HTTP auth, but as crawling is optional for indexing (yeah, really), the url might (and that is a very big might) shop up anyway in the google search results. i explained the google(bot) funnel in more detail here pages not indexed by Google

the right HTTP status header and the x-robot-tag are better suited to make sure an url does not show up in google (but both are useless if the robots.txt directive stays in place)

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文