c++：获取宽字符的 ascii 值

发布于 2024-08-24 08:36:52 字数 169 浏览 12 评论 0原文

假设我有一个像“äa”这样的字符数组。有没有办法获取第一个字符（多字节）的ascii值（例如228）？即使我将数组转换为 wchar_t * 数组，我也无法获得“ä”的 ascii 值，因为它有 2 个字节长。有没有办法做到这一点，我现在尝试了 2 天:(

我正在使用 gcc。

谢谢！

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

も让我眼熟你 2024-08-31 08:36:52

你这是自相矛盾。像 ä 这样的国际字符（根据定义）不在 ASCII 字符集中，因此它们没有“ascii 值”。

这取决于两个字符数组的确切编码，是否可以获得单个字符的代码点，如果可以的话，它将采用哪种格式。

回复收藏 0 原文

三生池水覆流年 2024-08-31 08:36:52

你很困惑。 ASCII 仅具有小于 128 的值。值 228 对应于 8 位字符集 ISO-8859-1、CP1252 等中的 ä。它也是 Unicode 系统中 ä 的 UCS 值。如果您使用字符串文字“ä”并获取两个字符的字符串，则该字符串实际上是用 UTF-8 编码的，您可能希望解析 UTF-8 编码以获取 Unicode UCS 值。

更有可能的是，您真正想要做的是将一种字符集转换为另一种字符集。如何执行此操作在很大程度上取决于您的操作系统，因此需要更多信息。您还需要具体说明您到底想要什么？也许是 ISO-8859-1 的 std::string 或 char* ？

回复收藏 0 原文

Saygoodbye 2024-08-31 08:36:52

有一个标准的 C++ 模板函数可以执行该转换， ctype::narrow( ）。它是本地化库的一部分。如果可能的话，它将把宽字符转换为当前本地的等效字符值。正如其他答案所指出的，并不总是存在映射，这就是为什么 ctype::narrow() 采用默认字符，如果没有映射，它将返回该默认字符。

回复收藏 0 原文

弱骨蛰伏 2024-08-31 08:36:52

取决于您的 char 数组中使用的编码。

如果你的 char 数组是 Latin 1 编码的，那么它有 2 个字节长（可能还加上一个 NUL 终止符，我们不在乎），这 2 个字节是：

0xE4 （小写变音符号）
0x61 （小写 a）。

请注意，Latin 1 不是 ASCII，0xE4 也不是 ASCII 值，它是 Latin 1（或 Unicode）值。

你会得到这样的值：

int i = (unsigned char) my_array[0];

如果你的 char 数组是 UTF-8 编码的，那么它的长度是三个字节，这些字节是：

二进制 11000011（UTF-8 编码的第一个字节 0xE4）
二进制 10100100（UTF-8 的第二个字节） 8 编码 0xE4)
0x61 (小写 a)

要恢复使用 UTF-8 编码的字符的 Unicode 值，您需要根据 http://en.wikipedia.org/wiki/UTF-8#Description （在生产代码中通常是个坏主意），否则您需要使用特定于平台的 unicode 到 wchar_t 转换例程。在 Linux 上，这是 mbstowcs 或 iconv，但对于单个字符，您可以使用 mbtowc，前提是为当前语言环境定义的多字节编码实际上是 UTF-8：

wchar_t i;
if (mbtowc(&i, my_array, 3) == -1) {
    // handle error
}

如果是 SHIFT-JIS 那么这不起作用......

Depends on the encoding used in your char array.

If your char array is Latin 1 encoded, then it it 2 bytes long (plus maybe a NUL terminator, we don't care), and those 2 bytes are:

0xE4 (lower-case a umlaut)
0x61 (lower-case a).

Note that Latin 1 is not ASCII, and 0xE4 is not an ASCII value, it's a Latin 1 (or Unicode) value.

You would get the value like this:

int i = (unsigned char) my_array[0];

If your char array is UTF-8 encoded, then it is three bytes long, and those bytes are:

binary 11000011 (first byte of UTF-8 encoded 0xE4)
binary 10100100 (second byte of UTF-8 encoded 0xE4)
0x61 (lower-case a)

To recover the Unicode value of a character encoded with UTF-8, you either need to implement it yourself based on http://en.wikipedia.org/wiki/UTF-8#Description (usually a bad idea in production code), or else you need to use a platform-specific unicode-to-wchar_t conversion routine. On linux this is mbstowcs or iconv, although for a single character you can use mbtowc provided that the multi-byte encoding defined for the current locale is in fact UTF-8:

wchar_t i;
if (mbtowc(&i, my_array, 3) == -1) {
    // handle error
}

If it's SHIFT-JIS then this doesn't work...

回复收藏 0 原文

怼怹恏 2024-08-31 08:36:52

您想要的称为音译 - 将一种语言的字母转换为另一种语言。它与 unicode 和 wchars 无关。你需要有一个映射表。

回复收藏 0 原文

~没有更多了~

关于作者

本王不退位尔等都是臣

暂无简介

0 文章

0 评论

616 人气

关注发私信

友情链接

文江博客

c++：获取宽字符的 ascii 值

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（5）

关于作者

相关话题

热门标签

推荐作者

胡图图

zt006

z祗昰~

冰葑

野の

天空

友情链接

c++：获取宽字符的 ascii 值

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（5）

关于作者

相关话题

热门标签

推荐作者

胡图图

zt006

z祗昰~

冰葑

野の

天空

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。