当前位置：文江博客话题详情

Unicode line-breaks newline whitespace paragraph

信息分离器是否构成Unicode的线路断路？

发布于 2025-01-21 13:22:21 字数 879 浏览 5 评论 0 原文

this wikipedia> ，VT，FF，CR，NEL，LS，PS）。这里没有关于ASCII“信息分离器”字符（FS，GS，RS，US）。但令人惊讶的是fs，gs，rs'段他们的双向班级。这令人困惑。

现在，当我在文本中遇到这些“信息分离器”字符之一时，我是否应该认为它们是线路的？换句话说，如果我正在写一个在线断裂时分裂的函数，那么我应该在这三个字符上分开吗？函数确实将它们视为线断裂。我不知道其他实现。

）

（ string.splitlines（） python中的类数据库，LF被认为是线路破裂。因此，当我遇到该角色时，我可以打破线。
在链接的Wikipedia表和Unicode BIDI类数据库中，SP不被视为线路破坏。因此，当我遇到那个角色时，我无法打破一条线。（假设没有单词包装）。
链接的Wikipedia表不提GS作为线路。但是Unicode BIDI类数据库确实将其提及为线路。我很困惑：在这种情况下我该怎么办？拜迪类在这种情况下是什么？

在这里，我只询问Unicode标准。但是，如果您知道，您也可以在ASCII标准中提及断线。

PS：我不确定链接的Wikipedia页面中的表是否正确。但是我找不到其他列出所有空格的好资源。

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（1）

皓月长歌 2025-01-28 13:22:21

fs，gs，rs和us属于“断路”类 combining_mark （ cm ）。此信息的Unicode字符数据库中的相关文件是。

uax＃14代码> cm 如下：

组合字符序列被视为单位
折断线。序列的断线行为是
基本字符。

换句话说：类 cm 字符禁止在之前 - 它们本质上是“胶水”到先前的字符上。但是，出于所有其他目的，线破坏算法完全忽略了类 cm 字符的存在。课程 cm 字符之后是否存在断路机会，这仅在于它已应用于基本字符的换行类别，即第一个不适合类 CM 。

*此规则有一些例外，涉及强制性休息和一些特殊的格式字符，但对于您的目的而言，它们不应与之相关。

回复收藏 0 原文

~没有更多了~

关于作者

梦中的蝴蝶

暂无简介

文章

评论

26 人气

关注发私信

相关话题

更多

推荐作者

关注

5040234068

文章 0 评论 0

关注

樱花雨梦

文章 0 评论 0

关注

≈。彩虹

文章 0 评论 0

关注

雨轻弹

文章 0 评论 0

关注

血之狂魔

文章 0 评论 0

关注

qq_0bIjwE

文章 0 评论 0

更多

友情链接

文江博客

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文