当前位置：文江博客话题详情

如何禁止在源服务器上进行爬网，同时又能正确传播 robots.txt？

发布于 2024-11-06 02:45:17 字数 466 浏览 9 评论 0原文

我遇到了一个相当独特的问题。如果您负责扩展大型站点并与 Akamai 这样的公司合作，您就会拥有 Akamai 与之通信的源服务器。无论您向 Akamai 提供什么服务，他们都会在其 CDN 上传播。

但是如何处理 robots.txt 呢？您不希望 Google 抓取您的来源。这可能是一个巨大的安全问题。想想拒绝服务攻击。

但是，如果您在源上提供带有“禁止”的 robots.txt，那么您的整个网站将无法抓取！

我能想到的唯一解决方案是向 Akamai 和全世界提供不同的 robots.txt。不允许全世界，但允许 Akamai。但这非常老套，而且容易出现很多问题，以至于我一想到它就感到畏缩。

（当然，源服务器不应该对公众可见，但我敢说大多数都是出于实际原因......）

这似乎是协议应该更好处理的问题。或者也许允许在搜索引擎的网站管理员工具中添加特定于站点的隐藏 robots.txt...

有什么想法吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

亚希 2024-11-13 02:45:17

如果您确实希望不公开您的来源，请使用防火墙/访问控制来限制 Akamai 以外的任何主机的访问 - 这是避免错误的最佳方法，也是阻止机器人和恶意软件的唯一方法。攻击者只需扫描公共 IP 范围来寻找网络服务器。

也就是说，如果您只想避免非恶意蜘蛛，请考虑在源服务器上使用重定向，该重定向会将没有 Host 标头（指定您的公共主机名）的任何请求重定向到正式名称。如果您有规范主机名的变体，您通常需要类似的东西，以避免混乱或搜索排名稀释的问题。对于 Apache，可以使用 mod_rewrite 甚至简单的虚拟主机设置，其中默认服务器具有 RedirectPermanent / http://canonicalname.example.com/。

如果您确实使用此方法，则可以简单地将生产名称添加到测试系统的主机必要时创建文件，或者还创建一个仅供内部使用的主机名（例如cdn-bypass.mycorp.com）并将其列入白名单，以便您可以在需要时直接访问源。