当前位置：文江博客话题详情

使用 ICU 库将 UTF-8 转换为 ASCII

发布于 2024-07-06 10:22:12 字数 277 浏览 12 评论 0原文

我有一个 std::string ，其中包含 UTF-8 字符。
我想将字符串转换为最接近的 ASCII 字符。

例如：

Łódź => 罗兹
Assunção =>; 阿松桑
城堡 => Schloss

不幸的是 ICU 库真的很不直观，我还没有找到关于它的使用的好的文档，所以我花了太多时间来学习使用它。我没有时间。

有人可以举一个小例子来说明如何做到这一点吗？
谢谢。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

著墨染雨君画夕 2024-07-13 10:22:12

尝试这个，
ucnv_convert（“US-ASCII”，“UTF-8”，目标，目标大小，源，源大小，pError）

回复收藏 0 原文

陌生 2024-07-13 10:22:12

我不了解 ICU，但 ICONV 可以做到这一点，而且非常容易学习。只需大约 3-4 次调用，您在您的情况下需要的是使用 iconvctl() 来使用 ICONV_SET_TRANSLITERATE 标志。

回复收藏 0 原文

羁绊已千年 2024-07-13 10:22:12

我编写了一个分解然后进行一些替换的回调。它可能可以作为音译来实现。代码在这里 decompcb.c 和标头就在附近。在 Unicode 到 ASCII 转换器上安装如下：

ucnv_setFromUCallBack(gConverter, &UCNV_FROM_U_CALLBACK_DECOMPOSE, &status);

然后使用 gConverter 将 unicode 转换为 ASCII

I wrote a callback that decomposes and then does some substitution. It could probably be implemented as a transliteration. code is here decompcb.c and header is nearby. Install it as follows on a Unicode-to-ASCII converter:

ucnv_setFromUCallBack(gConverter, &UCNV_FROM_U_CALLBACK_DECOMPOSE, &status);

then use gConverter to convert from unicode to ASCII

回复收藏 0 原文

〆一缕阳光ご 2024-07-13 10:22:12

这不是我擅长的领域，但如果您没有方便的库可以轻松地为您完成此操作，那么您最好创建一个包含 UTF-8 -> 的查找表/映射; ASCII 值。 IE。键是 UTF-8 字符，值是字符的 ASCII 序列。

回复收藏 0 原文

左耳近心 2024-07-13 10:22:12

ß->ss 分解告诉我您想要兼容性分解。在 ICU 中，您需要类 Normalizer。之后，你会得到类似 L'odz' 的东西。
您可以简单地从该字符串中删除非 ASCII 字符。不需要ICU，简单的STL就可以了。

回复收藏 0 原文

~没有更多了~

关于作者

断桥再见

暂无简介

0 文章

0 评论

24 人气

关注发私信

友情链接

文江博客

使用 ICU 库将 UTF-8 转换为 ASCII

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（5）

关于作者

相关话题

热门标签

推荐作者

苦中寻乐

lueluelue

嗼ふ静

王权女流氓

与花如笺

残酷

友情链接

使用 ICU 库将 UTF-8 转换为 ASCII

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（5）

关于作者

相关话题

热门标签

推荐作者

苦中寻乐

lueluelue

嗼ふ静

王权女流氓

与花如笺

残酷

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。