当前位置：文江博客话题详情

不知道语言的情况下大小写折叠 UTF-8

发布于 2024-08-12 05:11:14 字数 589 浏览 4 评论 0原文

我正在尝试评估不区分大小写的 UTF-8 字符串比较的不同策略。

我阅读了 Unicode 联盟的一些材料，尝试了 ICU 并尝试提出各种实现质量的替代方案。

我曾多次看到简单案例映射和完整案例映射之间的文本有所不同，我想确保我完全理解其中的差异。

据我阅读，简单案例映射是“上下文无关”的，即不需要知道有效负载是什么语言。由于突厥语“I/ı/ı/i”的崩溃，这将给出近似结果。

另一方面，完整案例映射需要知道有效负载的语言才能执行映射。有了这些额外信息，它可以采取特殊措施来涵盖以下情况：“Kim”作为突厥语字符串应变为大写的“KıM”，但“Kim”作为英语字符串应变为大写的“KIM”。

我说得对吗？

是否还有其他针对不同语言以不同方式折叠的“多方面”代码点的示例？

谢谢！

更新：提到简单案例映射与语言无关的来源之一是 ICU 的文档。我将其解释为 Unicode 真理，但也许这只是实现的一个声明？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

雪化雨蝶 2024-08-19 05:11:14

不，“完整大小写映射”是一种大小写，其中一个代码点需要被多个新代码点替换。简单的大小写映射是单个代码点替换。

如果您想自己实现此功能，则 Unicode CaseFolding.txt< /a> 文件对于正确执行此操作至关重要。请注意状态字段代码“T”，专门用于处理土耳其语 I 问题。

回复收藏 0 原文

清晰传感 2024-08-19 05:11:14

嗯......对于大多数西方语言来说，辅音组合“SS”会小写为“ss”，但在德语中它可能会变成特殊字母“ß”。这只是“可能”，有相当多的使用规则需要考虑。

我认为这不会直接影响整理顺序（当然欢迎任何德国人纠正我），所以也许这是一个没有实际意义的问题。

回复收藏 0 原文

~没有更多了~

关于作者

北城挽邺

暂无简介

0 文章

0 评论

23 人气

关注发私信

留蓝

文章 0 评论 0

关注

18790681156

文章 0 评论 0

关注

zach7772

文章 0 评论 0

关注

Wini

文章 0 评论 0

关注

ayeshaaroy

文章 0 评论 0

关注

初雪

文章 0 评论 0

友情链接

文江博客

不知道语言的情况下大小写折叠 UTF-8

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

留蓝

18790681156

zach7772

Wini

ayeshaaroy

初雪

友情链接

不知道语言的情况下大小写折叠 UTF-8

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

留蓝

18790681156

zach7772

Wini

ayeshaaroy

初雪

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。