当前位置：文江博客话题详情

机器人.txt；什么编码？

发布于 2024-09-25 23:04:39 字数 1435 浏览 7 评论 0原文

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

难理解 2024-10-02 23:04:39

由于该文件应仅包含 ASCII 字符，因此通常将其保存为 ANSI 或 UTF-8 并不重要。

但是，如果可以选择，您应该选择 ANSI，因为当您将文件另存为 UTF-8 时，记事本会将 Unicode 字节顺序标记添加到文件的前面，这可能会使仅识别 ASCII 的解释器无法读取该文件。

回复收藏 0 原文

冰雪梦之恋 2024-10-02 23:04:39

我相信Robots.txt“应该”采用UTF-8编码。

“预期的文件格式是以 UTF-8 编码的纯文本。该文件
由用 CR、CR/LF 或 LF 分隔的记录（行）组成。"
/来自 https://developers.google.com/webmasters /control-crawl-index/docs/robots_txt

但是，记事本等程序会在开头插入一个3字节的BOM（字节顺序标记）文件导致 Google 无法读取第一行（显示“无效语法”错误）；

或者删除 BOM，或者更简单，在第一行添加换行符，以便第一行指令位于第二行，

由 BOM 引起的“无效语法”行只会影响现在为空的第一行

。

回复收藏 0 原文

两个我 2024-10-02 23:04:39

至于编码：@Roland 已经确定了。该文件应仅包含 URL。 URL 中的非 ASCII 字符是非法的，因此将文件保存为 ASCII 应该没问题。

如果出于某种原因需要提供 UTF-8，请确保在文本文件的 content-type 标头中正确指定。您必须在网络服务器的设置中进行此项设置。

至于区分大小写：

根据robotstxt.org，robots.txt文件需要为小写：
<块引用>
请记住文件名全部使用小写：“robots.txt”，而不是“Robots.TXT”。
关键字可能不区分大小写 - 我找不到相关参考 - 但我倾向于做所有的事情其他人这样做：使用大写版本（Sitemap）。

回复收藏 0 原文

过度放纵 2024-10-02 23:04:39

我觉得你想太多了。我总是使用小写，只是因为它更容易。

你可以查看SO的robots.txt。 https://stackoverflow.com/robots.txt

回复收藏 0 原文

掐死时间 2024-10-02 23:04:39

我建议使用不带 BOM 的 UTF8 编码 robots.txt 或使用 ASCII 编码。

对于包含非 ASCII 字符的 URL，我建议使用 UTF8（在大多数情况下都可以），或者使用 URL 编码来表示 ASCII 中的所有字符。

看一下维基百科的 robots.txt 文件 - 它是 UTF8 编码的。

请参阅参考文献：

回复收藏 0 原文

静赏你的温柔 2024-10-02 23:04:39

我建议您使用 ANSI，因为如果您的 robots.txt 保存为 UTF-8，那么由于添加到其开头的 Unicode 字节顺序标记，它将在 Google 的搜索控制台中被标记为错误（如上面 Roland Illig 中所述））。

回复收藏 0 原文

維他命╮ 2024-10-02 23:04:39

大多数答案似乎已经过时了。自 2022 年起，Google 指定 robots.txt 格式如下 (来源):

文件格式
robots.txt 文件必须是 UTF-8 编码的纯文本文件并且各行必须用 CR、CR/LF 或 LF 分隔。
Google 会忽略 robots.txt 文件中的无效行，包括 Unicode 字节顺序标记 ( BOM）位于 robots.txt 文件的开头，并且仅使用有效的行。例如，如果下载的内容是 HTML 而不是 robots.txt 规则，Google 将尝试解析该内容并提取规则，并忽略其他所有内容。
同样，如果 robots.txt 文件的字符编码不是 UTF-8，Google 可能会忽略不属于 UTF-8 范围的字符，从而可能导致 robots.txt 规则无效。
Google 目前将 robots.txt 文件大小限制为 500 kibibytes (KiB)。最大文件大小之后的内容将被忽略。您可以通过合并会导致 robots.txt 文件过大的指令来减小 robots.txt 文件的大小。例如，将排除的材料放在单独的目录中。

TL;DR 回答问题：

您可以使用记事本保存 robots.txt 文件。只需使用UTF-8编码即可。
它可能包含也可能不包含 BOM；无论如何都会被忽略。
该文件必须准确命名为 robots.txt。没有大写“R”。
字段名称不区分大小写（来源）。因此，sitemap 和 Sitemap 都可以。

请记住，robots.txt 只是一个事实上的标准。无法保证任何抓取工具都会按照 Google 建议的方式读取此文件，也不会强制任何抓取工具遵守任何已定义的规则。

回复收藏 0 原文

~没有更多了~

关于作者

倒数

暂无简介

0 文章

0 评论

24 人气

关注发私信

1CH1MKgiKxn9p

文章 0 评论 0

关注

ゞ记忆︶ㄣ

文章 0 评论 0

关注

JackDx

文章 0 评论 0

关注

信远

文章 0 评论 0

关注

yaoduoduo1995

文章 0 评论 0

关注

霞映澄塘

文章 0 评论 0

友情链接

文江博客

机器人.txt；什么编码？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（7）

文件格式

File format

关于作者

相关话题

热门标签