当前位置：文江博客话题详情

“文件”中的 ISO-8859 是什么意思？

发布于 2025-01-03 01:30:03 字数 406 浏览 4 评论 0原文

我在我有权访问的软件存储库中运行了以下命令：

找到 . -not -name ".svn" -type f -exec 文件 "{}" \;

并看到许多输出线，例如

./File.java：ISO-8859 C++ 程序文本

是什么意思？ ISO-8859 是一个编码类，而不是某种编码。我预计所有文件都是 UTF-8，但大多数文件都采用所提供的编码。 ISO-8859 也是 UTF-8 的真子集吗？

我是否可以使用 ISO-8859-1 作为源编码来安全地转换所有这些文件，同时使用 iconv 将其转换为 UTF-8？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

笑咖 2025-01-10 01:30:03

恐怕 Unix file 程序在这方面相当糟糕。它只是意味着它是字节编码的。这并不意味着它是 ISO-8859-1。它甚至可能是非 ISO 字节编码，尽管它通常会解决这个问题。

我有一个比 file 更好的系统，但它是在英语语料库上训练的，所以可能不如德语。

简而言之，file 的结果不可靠。您必须知道真正的编码才能对其进行上转换。

回复收藏 0 原文

短暂陪伴 2025-01-10 01:30:03

file 使用的字符集检测相当简单。它识别 UTF-8。它通过在 0x80-0x9F 范围内查找 ISO 8859 编码存在“漏洞”的字节来区分“ISO-8859”和“非 ISO 扩展 ASCII”。但它不会尝试确定正在使用哪种 ISO 8859 编码。这就是为什么它只显示 ISO-8859 而不是 ISO-8859-1 或 ISO-8859-15。