当前位置：文江博客话题详情

检测多字节字符编码

发布于 2024-12-10 17:36:18 字数 112 浏览 3 评论 0原文

有哪些 C/C++ 库可用于检测字符数组 (char*) 的多字节字符编码（UTF-8、UTF-16 等）。一个好处是还可以检测匹配器何时停止，即检测给定的一组可能编码的前缀匹配范围。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

地狱即天堂 2024-12-17 17:36:18

ICU 执行字符集检测。您必须注意，正如 ICU 文件所述：

这充其量只是使用统计数据和
启发式。因此，如果您在以下位置提供，检测效果最好
至少几百个字节的字符数据，大部分在一个单一的
语言。

回复收藏 0 原文

郁金香雨 2024-12-17 17:36:18

如果输入仅为 ASCII，则无法检测流中是否存在任何高位设置字节。在这种情况下也可以选择 UTF-8。

至于 UTF-8 与 ISO-8859-x，您可以尝试将输入解析为 UTF-8，如果解析失败，则回退到 ISO-8859，但仅此而已。确实没有办法检测存在哪个 ISO-8859 变体。我建议查看 Firefox 尝试自动检测的方式，但这并不是万无一失的，可能取决于输入是否为 HTML。

回复收藏 0 原文

冷︶言冷语的世界 2024-12-17 17:36:18

一般来说，不可能检测到字符编码，除非文本有一些表示编码的特殊标记。您可以使用包含仅出现在某些编码中的字符的单词的字典来启发式检测编码。

这当然只能是一种启发式方法，您需要浏览整个文本。

示例：“英文文本可以用多种编码编写”。例如，可以使用德语代码页编写该句子。它与大多数“西方”编码（包括 UTF-8）没有什么区别，除非您添加一些 ASCII 中不存在的特殊字符（如 ä）。

回复收藏 0 原文

~没有更多了~

关于作者

﹎☆浅夏丿初晴

暂无简介

文章

27 人气

关注发私信

helenabai_sz

文章 0 评论 0

关注

993438968

文章 0 评论 0

关注

若能看破又如何

文章 0 评论 0

关注

情未る

文章 0 评论 0

关注

纪平伟

文章 0 评论 0

关注

bobowiki

文章 0 评论 0

友情链接

文江博客

检测多字节字符编码

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签