当前位置：文江博客话题详情

阿拉伯语：“来源” Unicode到最终显示Unicode

发布于 2024-12-10 15:05:20 字数 705 浏览 0 评论 0原文

简单的问题：

这是我正在寻找的最终显示字符串

??????

一个空格以阻止连接）

??????

它们不是相同的字符，有一些神奇的转换可以将它们融合在一起并将它们转换为新的 Unicode 字符。

然后在上面，字符实际上是从右到左出现的（在内存中，它们是从左到右）

所以我的简单问题是：我在哪里可以获得一个独立于平台的 c/c++ 函数，它将采用我的源 16 位 Unicode字符串，然后对其进行转换以生成 Unicode 字符串，该字符串将创建上面第一个引用的字符串？进行 RTL 转换和连接？

这就是我想要的，一个能做到这一点的函数。

更新：

好的，是的，我知道上面两个例子中的“字符”是相同的，它们是相同的“字母”，但是（在 chrome 或最新的 IE 中查看）任何人都可以清楚地看到字形是不同的。现在我相当有信心需要完成的这种转换可以在 unicode 级别上完成，因为我的字体文件和 unicode 标准似乎为字符的单独版本和各种连接版本指定了不同的字形/字母。（unicode.org/charts/PDF/UFB50.pdf unicode.org/charts/PDF/UFE70.pdf）

那么，我可以将我的unicode放入一个函数中并获取转换后的unicode吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

空袭的梦i 2024-12-17 15:05:20

连接和 RTL 转换不会发生在 Unicode 字符级别。

换句话说：字符的顺序和实际的unicode代码点在此过程中不会改变。

事实上，合并和处理 RTL/LTR 转换是由文本渲染引擎处理的。

维基百科关于阿拉伯字母表的文章中的这句话很好地解释了这一点：

最后，阿拉伯语的 Unicode 编码采用逻辑顺序，即字符按照书写和发音的顺序输入并存储在计算机内存中，而无需担心方向它们将显示在纸上或屏幕上。同样，由渲染引擎使用 Unicode 的双向以正确的方向呈现字符文本功能。在这方面，如果该页面上的阿拉伯文字是从左到右书写的，则表明用于显示它们的 Unicode 渲染引擎已过时。

回复收藏 0 原文

寂寞笑我太脆弱 2024-12-17 15:05:20

您要查找的处理称为连字。与许多基于拉丁语的语言不同，在这些语言中，您只需将一个字符放在另一个字符即可呈现文本，而连字是阿拉伯语的基础。替换是在文本渲染引擎中完成的，连字信息通常存储在字体文件中。

注意它们为何不是相同的字符

对于阿拉伯读者来说它们是相同的。它仍然可读。
无需对 Unicode16 源文本进行任何转换。您必须向文本渲染器提供整个字符串。在 C/C++ 中，当您采用独立于平台的方式时，您可以使用 Pango 进行渲染。

<子>
注意：也许您想写 ?????????（即新游戏）？ 因为你举的例子在阿拉伯语中没有任何意义。

回复收藏 0 原文

难理解 2024-12-17 15:05:20

我意识到这是一个老问题，但您正在寻找的是 FriBidi，< a href="http://www.unicode.org/reports/tr9/" rel="nofollow">Unicode 双向算法。

该程序执行问题中询问的字形选择，以及处理双向文本（从右到左和从左到右文本的混合）。

回复收藏 0 原文

独﹏钓一江月 2024-12-17 15:05:20

您正在寻找的是阿拉伯文字合成算法。我不知道有一个开源软件存在。如果您到达，请发帖。

几点：

在存储级别，没有 Unicode 转换。正如其他答案所指出的，字符串有一个抽象表示。

在渲染级别，您可以选择使用 Unicode 表示形式，但也可以选择使用其他形式。 Unicode 表示形式并不是表示输出编码应该是什么的标准 - 相反，它们只是可以由渲染引擎使用脚本合成输出的表示代码的一个示例。

更清楚地说：不会有一个标准转换（即合成算法）可以从 A 转换到 B，其中 A 是标准 Unicode 阿拉伯语页面，B 是标准 Unicode 阿拉伯语表示形式。相反，会有不同的转换，其复杂性可能不同，并且 B 可以有不同的编码系统，但可用于 B 的编码之一是 Unicode 表示形式。
例如，简单的打字机样式需要简单的渲染算法，而无需演示表单。事实上，确实存在现代书写风格（尽管不常见），其中 A 和 B 实际上是相同的，只是使用不同的字体页面来进行渲染。另一方面，渲染排版或传统书法形式的转换会更加复杂，并且需要类似于 Unicode 表示形式的东西。

以下是有关该主题的更多信息的一些提示：