当前位置：文江博客话题详情

如何确定文本编码

发布于 2024-09-09 06:08:55 字数 148 浏览 9 评论 0原文

我知道 UTF 文件有 BOM 来确定编码，但其他编码又如何呢？不知道如何猜测该编码。

我是新的java程序员。我已经编写了使用 UTF BOM 猜测 UTF 编码的代码。但我对其他编码有问题。我怎么猜他们呢。

有人可以帮助我吗？提前致谢。

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（3）

捂风挽笑 2024-09-16 06:08:55

这个问题是几个上一页一个。至少有两个 Java 库尝试猜测编码（尽管请记住，没有办法 100% 猜对）。

GuessEncoding
jchardet （mozilla firefox 使用的算法的 Java 端口）

当然，如果您知道编码只是三个或四个选项之一，您也许可以编写更准确的猜测算法。

回复收藏 0 原文

最偏执的依靠 2024-09-16 06:08:55

简短的回答是：你不能。

即使在 UTF-8 中，BOM 也是完全可选的，并且通常建议不要使用它，因为许多应用程序无法正确处理它，只是将其显示为可打印字符。字节顺序标记的最初目的是告诉 UTF-16 文件的字节顺序。

也就是说，大多数处理 Unicode 的应用程序都会实现某种猜测算法。阅读文件的开头并查找某些签名。

回复收藏 0 原文

人疚 2024-09-16 06:08:55

如果您不知道编码并且没有任何指示符（例如 BOM），则并不总是能够准确地“猜测”编码。存在一些可以给您提示的指针。

例如，ISO-8859-1 文件（通常）不会有任何 0x00 字符，但 UTF-16 文件却有大量此类字符。

最常见的解决方案是，如果无法检测到编码，则让用户选择编码。

回复收藏 0 原文

~没有更多了~

关于作者

剪不断理还乱

暂无简介

文章

评论

28 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

十二

文章 0 评论 0

飞烟轻若梦

文章 0 评论 0

OPleyuhuo

文章 0 评论 0

wxb0109

文章 0 评论 0

旧城空念

文章 0 评论 0

-小熊_

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文