关于搜索引擎定义是否收录的robots.txt文件
网上我查过了!如果在网站源码的主目录定义robots.txt文件,它是尊照了robots搜索引擎协议!
它的作用是定义子目录下的网站不允许搜索引擎收录,或者允许搜索引擎收录。
网站的每个模块可以区分定义!
如果我想把网站的(联系我们)的模块不允许搜索引擎收录使用:Disallow /加路径名(子目录)
如果我想把网站的(新闻信息)的模块允许搜索引擎收录使用:Allow /加路径名(子目录)
注意:这边定义robots.txt都使用路径(子目录)的!
如果网站开发是使用php的framework的话,使用单一入口文件的话
如何我想让xx单个模块不允许搜索引擎收录如何做?
是不是定义robots.txt把入口文件Disallow了,
这样做是不是把整个网站都定义为不允许搜索引擎收录了?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(3)
注意一个本质:
robots.txt
的本质是对URL的字符串匹配,而不是去深挖服务器的目录结构。借助URL重写技术,看似有着
/articles/category-1/post-1/page-1/
这样复杂“目录”结构的网站,其实内部可能半个文件都没有。但无论是访问者还是爬虫,都不知道,也不关心这一点。在大多数网站上“URL”和目录结构的等同,确实在有些时候为理解概念制造了迷惑。还是要注意这一点的。
所以一切都取决于你网站的URL路由,是怎么具体实现的。
/article/1/
):封index.php
没用,最多影响某些误撞进/index.php
的访问请求。/index.php/article/1/
或/index.php?action=article&id=1
):那就要小心了。在国内混,垦定是靠百度的。百度根本不鸟这个。
作为曾经的seo现在的phper告诉你在robots里禁掉你不想让他抓的目录基本是不管用滴,他只是个协议就像你在门上贴了张纸条说请勿打扰,有的人会不打扰但有的人就会推门进来啊 所以robots不是上锁是给搜索引擎贴了张纸条而已
不让搜索引擎收录单一模块的方法是在站内尽量少给这个模块链接,就是少给爬虫入口,并且在现有链接到这个模块的的标签里上加上nofollow。(但仍旧是和robots一样,只是贴了张纸)、
爬虫怎么爬和你的路由配置也有关系
“如何我想让xx单个模块不允许搜索引擎收录如何做?
是不是定义robots.txt把入口文件Disallow了,
这样做是不是把整个网站都定义为不允许搜索引擎收录了?”
这个我也很想知道。我觉得是不会的,有测试结果了请告知我哈哈