当前位置：文江博客话题详情

unicode 中的正则表达式断字器

发布于 2024-08-12 13:39:29 字数 69 浏览 17 评论 0原文

如何转换正则表达式 \w+ 给我 Unicode 中的整个单词——而不仅仅是 ASCII？

我使用.net

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

习惯成性 2024-08-19 13:39:29

在 .NET 中，\w 将匹配 Unicode 字母或数字的 Unicode 字符。例如，它将匹配 ì 和 Æ。

要仅匹配 ASCII 字符，您可以使用 [a-zA-Z0-9]。

回复收藏 0 原文

抚笙 2024-08-19 13:39:29

这对我来说按预期工作

        string foo = "Hola, la niña está gritando en alemán: Maüschen raus!";
        Regex r = new Regex(@"\w+");
        MatchCollection mc = r.Matches(foo);
        foreach (Match ma in mc)
        {
            Console.WriteLine(ma.Value);
        }

它输出

Hola
la
niña
está
gritando
en
alemán
Maüschen
raus

您使用 .Match() 而不是 .Matches()?

另一种可能的解释是，您期望收到的内容中有一个非单词字符，例如逗号。

This works as expected for me

        string foo = "Hola, la niña está gritando en alemán: Maüschen raus!";
        Regex r = new Regex(@"\w+");
        MatchCollection mc = r.Matches(foo);
        foreach (Match ma in mc)
        {
            Console.WriteLine(ma.Value);
        }

It outputs

Hola
la
niña
está
gritando
en
alemán
Maüschen
raus

Are you using .Match() instead of .Matches()?

Another possible explanation is that you have a non word character in what you expect to receive, like a comma.

回复收藏 0 原文

我不在是我 2024-08-19 13:39:29

您应该查看 http://msdn.microsoft.com/ en-us/library/yd1hzczs.aspx#ECMAScript
还有一个在 .net 中使用正则表达式的不错的备忘单： http://regexlib.com/CheatSheet.aspx

回复收藏 0 原文

妥活 2024-08-19 13:39:29

字母的“官方”Unicode 标识符是 \p{L}，数字的“官方”Unicode 标识符是 \p{N}。因此，为了完整起见，在 \w 未扩展到 Unicode 字母/数字的情况下， \w+ 的等效项将是 [\p{L }\p{N}\p{Pc}]+。不要忘记下划线和其他“标点连接符”字符也包含在 \w 中（因此您可以自己决定是否保留它们）。