当前位置：文江博客话题详情

Google 搜索引擎百度

关于搜索引擎定义是否收录的robots.txt文件

发布于 2022-08-28 00:29:20 字数 390 浏览 15 评论 0

网上我查过了！如果在网站源码的主目录定义robots.txt文件，它是尊照了robots搜索引擎协议！
它的作用是定义子目录下的网站不允许搜索引擎收录，或者允许搜索引擎收录。
网站的每个模块可以区分定义！
如果我想把网站的（联系我们）的模块不允许搜索引擎收录使用:Disallow /加路径名（子目录）
如果我想把网站的（新闻信息）的模块允许搜索引擎收录使用:Allow /加路径名（子目录）
注意：这边定义robots.txt都使用路径（子目录）的！
如果网站开发是使用php的framework的话，使用单一入口文件的话
如何我想让xx单个模块不允许搜索引擎收录如何做？
是不是定义robots.txt把入口文件Disallow了，
这样做是不是把整个网站都定义为不允许搜索引擎收录了？

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（3）

香橙ぽ 2022-09-04 00:29:21

注意一个本质：robots.txt的本质是对URL的字符串匹配，而不是去深挖服务器的目录结构。

借助URL重写技术，看似有着/articles/category-1/post-1/page-1/这样复杂“目录”结构的网站，其实内部可能半个文件都没有。但无论是访问者还是爬虫，都不知道，也不关心这一点。

在大多数网站上“URL”和目录结构的等同，确实在有些时候为理解概念制造了迷惑。还是要注意这一点的。

所以一切都取决于你网站的URL路由，是怎么具体实现的。

如果是完全重写(/article/1/)：封index.php没用，最多影响某些误撞进/index.php的访问请求。
如果依赖index.php做路由(/index.php/article/1/或/index.php?action=article&id=1)：那就要小心了。

苏璃陌 2022-09-04 00:29:21

在国内混，垦定是靠百度的。百度根本不鸟这个。

剩余の解释 2022-09-04 00:29:21

作为曾经的seo现在的phper告诉你在robots里禁掉你不想让他抓的目录基本是不管用滴，他只是个协议就像你在门上贴了张纸条说请勿打扰，有的人会不打扰但有的人就会推门进来啊所以robots不是上锁是给搜索引擎贴了张纸条而已

不让搜索引擎收录单一模块的方法是在站内尽量少给这个模块链接，就是少给爬虫入口，并且在现有链接到这个模块的的标签里上加上nofollow。（但仍旧是和robots一样，只是贴了张纸）、
爬虫怎么爬和你的路由配置也有关系

“如何我想让xx单个模块不允许搜索引擎收录如何做？
是不是定义robots.txt把入口文件Disallow了，
这样做是不是把整个网站都定义为不允许搜索引擎收录了？”

这个我也很想知道。我觉得是不会的，有测试结果了请告知我哈哈

~没有更多了~

关于作者

暂无简介

0 文章

0 评论

25 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

已经忘了多久

文章 0 评论 0

15867725375

文章 0 评论 0

LonelySnow

文章 0 评论 0

走过海棠暮

文章 0 评论 0

轻许诺言

文章 0 评论 0

信馬由缰

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文