当前位置：文江博客话题详情

如何比较 utf8 字符串，例如 c++ 中的波斯语单词？

发布于 2024-11-30 23:25:30 字数 115 浏览 0 评论 0原文

我想比较波斯语（utf8）的字符串。我知道我必须使用像 L"带" 这样的东西，并且它必须保存在 wchar_t * 或 wstring 中。问题是当我通过函数compare()字符串进行比较时，我没有得到正确的结果。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

迷迭香的记忆 2024-12-07 23:25:30

wchar_t 不适用于 UTF-8，但（取决于平台）通常适用于 UTF-16 或 UCS-32。如果您想使用 UTF-8，请使用普通的旧式 char * 或 string 以及它们的相等比较函数。如果你想要人类有意义的排序，它就会变得更加复杂（无论你使用哪种编码）。

回复收藏 0 原文

你怎么敢 2024-12-07 23:25:30

Unicode 是出了名的难以比较。

请注意，任何 Unicode 编码（包括 UTF-8、16 或 32）都不能按字节进行比较，除非字节相等。显示可能是相同的，但所使用的字节(例如R→L标记、代理对、显示修饰符以及非英语语言(例如波斯语)中使用的类似字节)将不同。

一般来说，如果文本的含义具有任何意义，则需要先对 Unicode 进行规范化，然后才能进行实际比较：

http://userguide.icu-project.org/transforms/normalization

回复收藏 0 原文

热鲨 2024-12-07 23:25:30

如果您要比较的字符串已经采用特定的、明确的编码，则不要使用 wchar_t 也不要使用 L"" 文字 - 这些是不适用于 Unicode，仅适用于实现定义的不透明编码。

如果您的字符串采用 UTF-8 格式，请使用 char 字符串。如果您想将它们转换为原始 Unicode 代码点 (UCS-4/UTF-32)，或者您已经拥有该形式的它们，请将它们存储在 uint32_t 字符串中，或 char32_ts（如果您有现代编译器）。

如果您使用的是 C++11，则文字可以是 char str8[] = u8"带"; 或 char32_t str32[] = U"带";。请参阅此主题了解更多相关信息。

如果您想与命令行参数或环境交互，请使用 iconv() 将 WCHAR 转换为 UTF-32 或 UTF-8。

回复收藏 0 原文

~没有更多了~

关于作者

夏了南城

暂无简介

0 文章

0 评论

23 人气

关注发私信

友情链接

文江博客

如何比较 utf8 字符串，例如 c++ 中的波斯语单词？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

游缘惊梦

小兔几

Glik

生生漫

Luxian

Champion-Ming

友情链接

如何比较 utf8 字符串，例如 c++ 中的波斯语单词？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

游缘惊梦

小兔几

Glik

生生漫

Luxian

Champion-Ming

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。