如果我使用 HTTP 代码 418（又名“我是茶壶”）响应 robots.txt 请求，这会让搜索引擎不喜欢我吗？

发布于 2024-12-16 11:42:29 字数 412 浏览 1 评论 0原文

我有一个非常简单的 Web 应用程序，它在 HTML5 的 Canvas 中运行，没有任何需要由搜索引擎索引的公共文件（除了包含对所有必要资源的调用的首页 HTML 文件之外）。因此，我实际上并不需要 robots.txt 文件，因为他们只会看到公共文件，仅此而已。

现在，开个玩笑，每次网络爬虫请求 robots.txt 时，我都想返回一个 HTTP-418 AKA“我是茶壶”响应。然而，如果这最终会让我在搜索结果中的位置变得糟糕，那么这对我来说就不是一个非常值得的笑话。

有谁知道不同的网络爬虫将如何响应非标准（尽管在这种情况下它在技术上是标准的）HTTP 代码？

另外，更严重的是，是否有任何理由需要一个 robots.txt 文件来表示“一切都可索引！”而不是只是没有文件？

需要登录才能够评论，你可以免费注册一个本站的账号。

野稚 2024-12-23 11:42:29

拥有空白的 robots.txt 文件还会告诉抓取工具您希望将所有内容编入索引。 robots.txt 有一个 allow 指令，但它是非标准的，不应依赖。这样做很好，因为每当搜索引擎尝试从您的网站请求不存在的 robots.txt 时，它可以防止 404 错误堆积在您的访问日志中。
发送非标准 HTTP 代码不是一个好主意，因为您完全不知道搜索引擎将如何响应它。如果他们不接受，他们可能会使用 404 标头作为后备，这显然不是您想要发生的情况。基本上，这是一个不好开玩笑的地方。

~没有更多了~