当变音符号在前并且重音符号不组合形式时，如何将 CodePage 规范化为 Unicode Form C

发布于 2024-09-13 18:38:47 字数 310 浏览 15 评论 0原文

我希望能够说“通过将变音符号强制转换为组合形式来规范该字符串”。

详情：
我的代码是用 C# 开发的，但我不认为问题是特定于语言的。

我的数据有两个问题 (1) 变音符号位于该数据中的基本字符之前（它需要位于 Unicode 形式 D 或 KD 中的基本字符之后）。 (2) 我的数据中的重音变音符号是希腊语 Tonos (U+0384)，但需要组合形式 (U+0301) 才能标准化。

我想以编程方式执行此操作。我认为这种类型的操作应该是众所周知的，但我没有在 C# 全球化方法中找到支持（有规范化方法，但没有办法强制变音符号重音变成其组合形式）。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

不再见 2024-09-20 18:38:47

我不认为 C# 全球化方法可以为您提供帮助。正如您指出的问题是 U+0384 不是组合字符。它本身就是一个角色。这也可以从兼容性分解（To U+0020 U+0301）中看出。该数据集很可能来自将音调显示为下一个字符的变音符号的源。根据 unicode 规范，这不是“正确的”。因此，您必须自己转换数据。我在撇号方面遇到了类似的问题；有时应用程序会使用正确的引号。

数据转换并不难，我相信你可以编写代码。
我会有一个有状态转换器并通过流传输数据。当 U+0384 被检测到时，它不会被 emmetied。您坚持“tonos”状态并在 NEXT 字符后发出 U+0301。这些是要处理的错误条件（U+0384 运行，“tonos”状态下的数据结束）。
该数据可以使用常用的 API 进行标准化。
祝你好运。

回复收藏 0 原文

~没有更多了~