当前位置：文江博客话题详情

区分字符串格式

发布于 2024-10-05 22:48:38 字数 68 浏览 8 评论 0原文

有一个无类型指针指向某个可以保存 ANSI 或 Unicode 字符串的缓冲区，我如何判断它保存的当前字符串是否是多字节？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

反差帅 2024-10-12 22:48:38

除非字符串本身包含有关其格式的信息（例如标头或字节顺序标记），否则检测字符串是 ANSI 还是 Unicode 并不是万无一失的方法。 Windows API 包含一个名为 IsTextUnicode() 基本上猜测字符串是 ANSI 还是 Unicode，但是然后你会遇到这个问题因为您被迫猜测。

为什么首先要有一个指向字符串的无类型指针？您必须确切地知道数据表示信息的内容和方式，要么首先使用类型化指针，要么提供 ANSI/Unicode 标志或其他东西。除非你确切地知道它代表什么，否则一串字节是没有意义的。

回复收藏 0 原文

也只是曾经 2024-10-12 22:48:38

Unicode不是一种编码，它是代码点到字符的映射。例如，编码是 UTF8 或 UCS2。

而且，考虑到 ASCII 和 UTF8 编码之间存在零差异，如果您将自己限制为较低的 128 个字符，那么您实际上无法分辨出差异。

您最好询问是否有办法区分 ASCII 和 Unicode 的特定编码之间的区别。答案是使用统计分析，但统计分析存在固有的不准确性的可能性。

例如，如果整个字符串由小于 128 的字节组成，则它是 ASCII（它可能是 UTF8，但无法区分，在这种情况下没有区别）。

如果它主要是英语/罗马语并且由许多两字节序列组成，其中一个字节为 0，则它可能是 UTF16。等等。我不相信在没有某种指标（例如 BOM）的情况下存在万无一失的方法。

我的建议是不要把自己置于必须猜测的境地。如果数据类型本身不能包含指示符，请为 ASCII 和 Unicode 的特定编码提供不同的函数。然后将决定的工作交给你的客户。在调用层次结构中的某个时刻，某人现在应该进行编码。

或者，更好的是，完全放弃 ASCII，拥抱新世界并只使用 Unicode。对于 UTF8 编码，ASCII 与 Unicode 相比没有优势:-)

回复收藏 0 原文

断肠人 2024-10-12 22:48:38

一般来说你不能

你可以检查零的模式 - 最后只有一个可能意味着ansi'c'，每隔一个字节一个零可能意味着ansi文本作为UTF16，3zeros可能是UTF32

回复收藏 0 原文

~没有更多了~

关于作者

与往事干杯

暂无简介

文章

26 人气

关注发私信

友情链接

文江博客

区分字符串格式

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

饮湿

明月

02

hs1283

风向决定发型

落花浅忆

友情链接

区分字符串格式

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

饮湿

明月

02

hs1283

风向决定发型

落花浅忆

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。