Google 在我的网站上对我的测试文件夹建立了索引:( 我如何限制网络爬虫!
帮助帮助! 谷歌在我的网站上索引了一个测试文件夹,没有人保存我应该知道的:(!我如何限制谷歌索引链接和某些文件夹。
Help Help! Google indexed a test folder on my website which no one save I was supposed to know about :(! How do I restrict google from indexing links and certain folders.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(6)
使用机器人排除文件,或者更好的是用密码保护您的测试区域! 使用 robots.txt 文件“保护”您不希望其他人看到的区域有点像在您的后门上挂一个牌子,上面写着“我已将其打开,但请不要进来”< /em> :)
如果您注册了 Google 网站站长工具,您可以请求删除如果您确保其抓取工具不再可以访问搜索结果。
Use a robot exclusion file, or better yet password protect your test areas! Using a robots.txt file to "protect" areas you don't want others to see is a little like hanging a sign on your back door saying "I've left this open but please don't come in" :)
If you sign up for Google webmaster tools, you can request removal of a search result if you ensure it's no longer accessible by their crawler.
使用
robots.txt
。Google 查找,或查看:http: //www.google.com/support/webmasters/bin/answer.py?hl=zh-CN&answer=40360
Use
robots.txt
.Google for it, or check out: http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=40360
避免抓取工具将您的某些内容编入索引的最佳方法是使用网站根目录中的 robots.txt 文件。
这是一个示例:
在第一个块中,我告诉爬虫他可以浏览所有内容。
第二个块有我希望他避免的文件夹列表。
这不是真正保护它的安全方式,因为某些爬虫不尊重它。
如果您确实想保护它,最好的方法应该是在这些文件夹上有一个 .htaccess 文件以强制进行身份验证。
The best way to avoid crawlers to index some of your content is by the robots.txt file on the root of your site.
Here is an example:
On the first block I'm telling the crawler he can browse all.
The second block has the list of folders I want him to avoid.
This is not a safe way of really protect it, since some crawlers do not respect it.
If you really want to protect it, the best way should be to have a .htaccess file on those folders to force authentication.
谨防! 您可以告诉“好”机器人(例如谷歌)远离某些地方,但其他机器人则不会那么好。 因此,正确解决这个问题的唯一方法就是对不被视为“公共”的场所添加一些限制。 您可以限制对某些您信任的 IP 地址的访问,也可以添加用户名/密码身份验证。
Beware! You can tell "nice" bots (like google) to stay away from certain places, but other bots don't play that nice. So the only way to solve this properly is to add some restrictions to the places that are not considered "public". You could restrict access to some IP addresses you trust, or you could add username/password authentication.
也许正确的答案是不要将测试代码放在公共网站上。 为什么它是您部署的一部分?
Maybe the right answer is to not put test code on a public web site. Why is it part of your deployment at all?
如果您使用 Apache:
.htaccess
AuthUserFile //.htpasswd
AuthGroupFile /dev/null
AuthName“您必须登录才能访问此开发网站”
AuthType Basic
<限制 GET>
<代码>
密码文件 (.htpasswd) 包含
名称:密码
密码已加密。 如果您搜索“htpasswd”,您会发现大量免费程序可以为您加密密码。
触发。
If you're using Apache:
.htaccess
AuthUserFile //.htpasswd
AuthGroupFile /dev/null
AuthName "You must log in to access this development web site"
AuthType Basic
<Limit GET>
</Limit>
The password file (.htpasswd) then contains
name:password
The password is encrypted. If you search "htpasswd" you'll find plenty of free programmes to encrypt the password for you.
TRiG.