当前位置：文江博客话题详情

Java中获取文件的编码

发布于 2024-09-18 14:58:11 字数 342 浏览 4 评论 0原文

可能的重复：
Java：如何确定正确的字符集编码一个流

用户将一个CSV文件上传到服务器，服务器需要检查CSV文件是否编码为UTF-8。如果需要，请通知用户，他上传了错误的编码文件。问题是如何检测用户上传的文件是UTF-8编码？后端是用Java编写的。那么有人收到建议了吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

南汐寒笙箫 2024-09-25 14:58:11

至少在一般情况下，无法确定文件使用什么编码——您能做的最好的事情就是基于启发式进行合理猜测。你可以排除一些可能性，但充其量你只是在不确认任何一种可能性的情况下缩小可能性范围。例如，大多数 ISO 8859 变体允许任何字节值（或字节值模式），因此几乎任何内容都可以使用几乎任何 ISO 8859 变体进行编码（并且我只使用“几乎“出于谨慎，不确定您是否可以消除任何可能性）。

不过，您可以做出一些合理的猜测。例如，一个以 UTF-8 编码 BOM (EF BB BF) 的三个字符开头的文件，可以安全地假设它确实是 UTF-8。同样，如果您看到类似以下的序列：110xxxxx 10xxxxxx，则可以相当合理地猜测您所看到的内容是使用 UTF-8 编码的。如果您看到类似 110xxxxx 110xxxxx 的序列，则可以消除某些内容（正确）被 UTF-8 编码的可能性。（110xxxxx 是序列的前导字节，必须后跟一个非前导字节，而不是正确编码的 UTF-8 中的另一个前导字节）。

回复收藏 0 原文