某处是否有 UTF-8 的仅语言字符区域列表？

发布于 2024-09-01 23:10:48 字数 188 浏览 3 评论 0原文

我正在尝试以识别不同语言字符的方式分析一些 UTF-8 编码的文档。对于我的工作方法，我需要忽略非语言字符，例如控制字符、数学符号等。仅仅尝试剖析 UTF 标准的基本拉丁语部分就导致了多个区域，其中除号等字符就在其中一系列有效拉丁字符的中间。

是否有一个列表可以识别这些区域？或者更好的是，定义区域的正则表达式或 C# 中可以识别不同字符的内容？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

无悔心 2024-09-08 23:10:50

您可能对通用 alpha 感兴趣，其定义由中的合法内容一个 C 标识符。

回复收藏 0 原文

∝单色的世界 2024-09-08 23:10:49

查看 Unicode 字符类别。您可以使用字符类语法 \p{catname} 在 C# 正则表达式中匹配这些内容。因此，要匹配小写字母，您可以使用 \p{Ll}。您可以将这些结合起来。 [\p{Ll}\p{Lu}] 匹配 Ll 或 Lu 类中的字符。

回复收藏 0 原文

鹤舞 2024-09-08 23:10:49

您可以使用 \p{XXX} 来匹配 unicode 类别。
例如，\p{Cc} 匹配所有控制字符。

我想你可以使用 \w 来匹配 (L*) 中的所有字母。在unicode模式下它等于[\p{Ll}\p{Lu}\p{Lt}\p{Lo}\p{Nd}\p{Pc}]。

请参阅 http://www.fileformat.info/info/unicode/category/index .htm 类别列表。

回复收藏 0 原文

~没有更多了~

关于作者

月下伊人醉

暂无简介

文章

24 人气

关注发私信

友情链接

文江博客

某处是否有 UTF-8 的仅语言字符区域列表？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

勿忘初心

Ransom

似最初

痴者

不再见

Thera

友情链接

某处是否有 UTF-8 的仅语言字符区域列表？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

勿忘初心

Ransom

似最初

痴者

不再见

Thera

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。