Java：检测给定字符编码的不可显示字符

发布于 2024-09-17 05:36:06 字数 638 浏览 4 评论 0原文

我目前正在开发一个应用程序来验证和解析 CSV 文件。 CSV 文件必须以 UTF-8 进行编码，尽管有时我们会得到错误编码的文件。 CSV 文件很可能包含德语字母表的特殊字符（ä、Ö、Ü、ß），因为 CSV 文件中的大多数文本都是德语。

对于验证器部分，我需要确保该文件是 UTF-8 编码的。只要不存在特殊字符，解析就很可能没有问题。

到目前为止，我尝试的是将文件作为字节读取，并使用一些库来检测（或猜测）编码。我尝试了这篇博文的大部分可能性：http://fredeaker。 blogspot.com/2007/01/character-encoding-detection.html

但是我尝试的所有库都没有返回正确的编码，因此我无法解析特殊字符。

现在回答我的问题：有没有办法确定给定的字符编码（如 UTF-8）来检测未正确编码的字符？所以基本上在（Eclipse）控制台中显示的字符是问号。

或者有没有其他方法可以正确判断字符编码？我只需要知道它是否是UTF-8。

预先感谢大家的帮助！：）

此致，罗伯特

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

眼波传意 2024-09-24 05:36:06

无法正确解码的字节序列将被替换为“替换字符”\uFFFD，显示如下：�。但是，如果输出设备不支持该字符，则可能会使用问号 (?) 代替。

因此，将 UTF-8 数据解码为 String 对象后，搜索 \uFFFD 的出现。

或者，如果您使用 CharsetDecoder 您自己创建的，您可以获得更多控制权。例如，您可以指定如果有任何无法解码的字节序列，则应引发 Exception。或者您可以忽略它们。或者您可以指定不同的字符作为替换字符。

回复收藏 0 原文

兔姬 2024-09-24 05:36:06

如果文本是德语并且编码不是 UTF-8，则可能是 windows-1252。或者与 windows-1252 兼容的东西，例如 ISO-8859-15。既然如此，Laforge 的 GuessEncoding 应该就是您所需要的。我已经用过很多次了，从来没有遇到过问题，而且几乎只适用于英文文本；德语应该更容易被发现。

我看到他仍然没有在他的博客或源文件中指定许可证，但我知道这些类在中使用Groovy，所以这应该不是问题。

回复收藏 0 原文

~没有更多了~