是否可以阻止搜索引擎蜘蛛无限抓取搜索结果上的分页链接？

发布于 2024-07-10 01:00:04 字数 760 浏览 20 评论 0 原文

我们的 SEO 团队希望向蜘蛛开放我们的主要动态搜索结果页面，并从元标记中删除“nofollow”。目前，蜘蛛可以通过允许 robots.txt 中的路径来访问它，但在元标记中使用“nofollow”子句，可以防止蜘蛛超出第一页。

我担心，如果我们删除“nofollow”，对我们的搜索系统的影响将是灾难性的，因为蜘蛛将开始抓取结果集中的所有页面。我希望得到以下建议：

1）有没有办法从元标记中删除“nofollow”，但防止蜘蛛只跟踪页面上的某些链接？我读过关于 rel="nofollow" 的不同意见，这是一个可行的选择吗？

下一页

2) 有没有办法控制“深度”蜘蛛会走多远？如果他们读了几页就停下来了，那也不算太糟糕。

3）我们的搜索结果页面有标准的下一个/上一个链接，理论上这会导致蜘蛛无限递归地点击页面，这对SEO有什么影响？

我知道不同的蜘蛛有不同的行为，但我主要关注的是大公司，例如 Google、Yahoo、MSN。

注意我们的搜索结果页面和分页链接对机器人不友好，因为它们没有被重写并且有一个 ?name=value 查询字符串，但从我所看到的蜘蛛不再只是当他们看到“？”时中止因为结果页面正在以良好的页面排名建立索引。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

独﹏钓一江月 2024-07-17 01:00:04

老实说，您对 nofollow 的看法是错误的。搜索蜘蛛很可能已经在搜索 nofollow 页面，尤其是 Google、Yahoo 和 MSN，因为它们仍然需要访问这些页面来查看是否有 noindex。

真正的问题是nofollow实际上并不意味着不关注，它只是意味着不要将我的声誉传递给此链接。因此，除非您积极阻止机器人（听起来不像您那样），否则更改链接上的机器人元标记和机器人命令不会影响性能，因为它们已经访问了您的网站。要确认这一点，只需查看您的 HTTP 服务器日志即可。

所以我的投票是，你不会发现取消机器人限制有任何问题。

回复收藏 0 原文

心是晴朗的。 2024-07-17 01:00:04

我见过 Google 索引了一个日历系统，该系统在每个页面上都有相对链接，直到时间结束（2038 年 1 月 19 日 - 请参阅：http://en.wikipedia.org/wiki/Year_2038_problem）。我们没有注意到服务器上的负载，直到它暴露了处理 2038 年日期的源代码中的错误。

我不知道其他搜索引擎，但 Google 提供了许多有用的工具来控制 googlebot 的负载量影响您的服务器基础设施。请参阅 http://www.google.com/webmasters/。

网站管理员工具中有一个选项可以设置网站的抓取速度。

回复收藏 0 原文

木格 2024-07-17 01:00:04

Google 机器人非常聪明，不会遍历动态生成的页面的整个数据库，只要 URL 给出一些提示，表明它们是动态的（即 .asp 或 .jsp 等文件扩展名以及数字 id 作为查询参数）。如果您使用重写规则使您的 URL 变得“友好”，那么机器人就很难确定它们正在阅读的页面是静态页面还是动态生成的页面。有关详细信息，请参阅这篇 Google 文章动态 URL 与静态 URL。

您可能还需要考虑创建一个 Google 站点地图来为机器人提供信息更好地了解网站上的哪些页面可以被索引，哪些不能被索引。