当前位置：文江博客话题详情

源代码是否应该以 UTF-8 格式保存

发布于 2024-08-20 01:23:19 字数 319 浏览 2 评论 0原文

以 UTF-8 格式保存源代码有多重要？

Windows 上的 Eclipse 默认使用 CP1252 字符编码。 CP1251 格式意味着可以保存非 UTF-8 字符，如果您从 Word 文档复制并粘贴注释以进行注释，我就看到过这种情况。

我之所以问这个问题，是因为出于习惯，我将 Maven 编码设置为 UTF-8 格式，最近它发现了一些不可映射的错误。

（更新）请添加这样做的任何原因以及为什么，是否有一些应该知道的常见问题？

（更新）你的目标是什么？为了找到最佳实践，所以当问为什么我们应该使用 UTF-8 时，我有一个很好的答案，但现在我没有。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

贪恋 2024-08-27 01:23:19

你的目标是什么？权衡您的需求与此选择的利弊。

UTF-8 Pros

允许使用所有字符文字，无需 \uHHHH 转义

UTF-8 Cons

使用非 ASCII 字符文字，无需 \ uHHHH 增加字符损坏的风险
- 可能会出现字体和键盘问题
- 需要在所有工具（编辑器、编译器、构建脚本、差异工具）中记录并强制使用 UTF-8
注意字节顺序标记

ASCII Pros

字符/字节映射由多种编码共享
- 使源文件非常便携
- 通常不需要指定编码元数据（因为如果将文件重新编码为 UTF-8、Windows-1252、ISO 8859-1 以及大多数缺少 UTF-16 和/或的内容，文件将是相同的） EBCDIC）

ASCII 缺点

字符集有限，
这不是 1960 年代

注意：ASCII 是 7 位，不是“扩展”，不要与 Windows-1252 混淆、ISO 8859-1 或其他任何内容。

回复收藏 0 原文

萌︼了一个春 2024-08-27 01:23:19

重要的是，至少您需要与用于避免鲱鱼的编码一致。因此，X 在这里，Y 在那里，Z 在别处。将源代码保存为编码 X。将代码输入设置为编码 X。将代码输出设置为编码 X。将基于字符的 FTP 传输设置为编码 X。等等。

如今，UTF-8 是一个不错的选择，因为它涵盖了人类世界所识别的每个字符，并且几乎在所有地方都受到支持。所以，是的，我也会为其设置工作区编码。我也是这么用的。

回复收藏 0 原文

寄与心 2024-08-27 01:23:19

恕我直言，Eclipse 使用平台默认编码的默认设置是一个糟糕的决定。我发现有必要在安装后不久将默认值更改为 UTF-8，因为我现有的一些源文件使用了它（可能来自从网页复制/粘贴的片段）。Java

语言和 API 规范需要 UTF-8 支持，因此您就标准工具而言绝对没问题，而且我已经很久没有见过不支持 UTF-8 的像样的编辑器了。

即使在使用 JNI 的项目中，您的 C 源代码通常也采用 US-ASCII（它是 UTF-8 的子集），因此在同一个 IDE 中打开两者不会出现问题。

回复收藏 0 原文

我的鱼塘能养鲲 2024-08-27 01:23:19

是的，除非您的编译器/解释器无法处理 UTF-8 文件，否则这绝对是可行的方法。

回复收藏 0 原文

熟人话多 2024-08-27 01:23:19

我不认为这个问题真的有一个直接的是或否的答案。我想说，应该使用以下准则来选择编码格式，按照列出的优先级顺序（从高到低）：

1) 选择您的工具链支持的编码。这比以前容易多了。即使在最近的记忆中，许多编译器和语言基本上只支持 ASCII，这或多或少迫使开发人员使用西欧语言进行编码。如今，许多较新的语言都支持其他编码，并且几乎所有不错的编辑器和 IDE 都支持非常长的编码列表。不过……在确定编码之前，仍有足够的保留，您需要仔细检查。

2) 选择一种支持尽可能多的您希望使用的字母的编码。我将其作为次要优先事项，因为坦率地说，如果您的工具不支持它，那么您是否更喜欢这种编码并不重要。

在当今世界的许多情况下，UTF-8 都是一个绝佳的选择。这是一种丑陋、不优雅的格式，但它解决了一系列破坏其他编码的问题（即处理遗留代码），并且它似乎越来越成为字符编码的事实上的标准。它支持所有主要的字母表，现在地球上几乎每个编辑器都支持它，并且许多语言/编译器也支持它。但正如我上面提到的，有足够遗留的保留，您需要从头到尾仔细检查您的工具链，然后再最终决定。

回复收藏 0 原文

~没有更多了~