当前位置：文江博客话题详情

在 C++ 中将 UTF-8 转换为 ANSI

发布于 2024-12-18 10:07:09 字数 74 浏览 0 评论 0原文

我在任何地方都找不到这个问题的答案。

如何在 C++ 中将字符串从 UTF-8 转换为 ANSI（扩展 ASCII）？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

月隐月明月朦胧 2024-12-25 10:07:09

通常，人们使用 libiconv（网页），它是可移植的并且可以在大多数平台上运行。正如 KerrekSB 提到的，如果您将字符集视为“扩展 ASCII”，您将陷入大麻烦——我确信至少有一百个字符集可以称为“扩展 ASCII”，包括 UTF-8。

另外，请确保您知道所需的编码：ISO-8859-1 或 CP1252。 Windows 版本用附加的打印字符替换了 C1 控制代码。

回复收藏 0 原文

一身软味 2024-12-25 10:07:09

仅限 Windows：

string UTF8ToANSI(string s)
{
    BSTR    bstrWide;
    char*   pszAnsi;
    int     nLength;
    const char *pszCode = s.c_str();

    nLength = MultiByteToWideChar(CP_UTF8, 0, pszCode, strlen(pszCode) + 1, NULL, NULL);
    bstrWide = SysAllocStringLen(NULL, nLength);

    MultiByteToWideChar(CP_UTF8, 0, pszCode, strlen(pszCode) + 1, bstrWide, nLength);

    nLength = WideCharToMultiByte(CP_ACP, 0, bstrWide, -1, NULL, 0, NULL, NULL);
    pszAnsi = new char[nLength];

    WideCharToMultiByte(CP_ACP, 0, bstrWide, -1, pszAnsi, nLength, NULL, NULL);
    SysFreeString(bstrWide);

    string r(pszAnsi);
    delete[] pszAnsi;
    return r;
}

Windows only:

string UTF8ToANSI(string s)
{
    BSTR    bstrWide;
    char*   pszAnsi;
    int     nLength;
    const char *pszCode = s.c_str();

    nLength = MultiByteToWideChar(CP_UTF8, 0, pszCode, strlen(pszCode) + 1, NULL, NULL);
    bstrWide = SysAllocStringLen(NULL, nLength);

    MultiByteToWideChar(CP_UTF8, 0, pszCode, strlen(pszCode) + 1, bstrWide, nLength);

    nLength = WideCharToMultiByte(CP_ACP, 0, bstrWide, -1, NULL, 0, NULL, NULL);
    pszAnsi = new char[nLength];

    WideCharToMultiByte(CP_ACP, 0, bstrWide, -1, pszAnsi, nLength, NULL, NULL);
    SysFreeString(bstrWide);

    string r(pszAnsi);
    delete[] pszAnsi;
    return r;
}

回复收藏 0 原文

神经大条 2024-12-25 10:07:09

假设“ANSI”实际上是指 ISO 8859 变体之一，我们应该从几点开始。

首先，并非每个字符串都可以从 UTF-8（或一般的 Unicode，无论使用何种转换）转换为 ISO 8859。Unicode 对于地球上每种语言中的几乎每个字符都有一个唯一的代码点。

ISO 8859 支持的语言要少得多，并且为其支持的每种语言都有单独的字符集；相同的代码在不同的语言中代表不同的字符。

这意味着 UTF-8 输入字符串很容易包含根本无法用任何 ISO 8859 变体表示的字符，并且也很容易包含需要不同 ISO 8859 变体来表示的字符。

第二，即使在最好的情况下，这种转变也可能是相当重要的。如果可能的话，您几乎肯定希望使用库（例如 libiconv）来完成此任务。举个例子，Unicode 有一个名为“组合变音符号”的功能，它可以让您将诸如“带锐音符号的 A”之类的内容编码为单个代码点或两个单独的代码点（一个代表“A”，另一个代表重音）。要将其编码为 ISO 8859，您必须将它们全部转换为一种形式（通常是预组合形式）。

在对 Unicode 进行任何重要工作之前，您通常还需要将 UTF-8 转换为 UCS-4。

因此，序列将类似于：