\b 的正则表达式

发布于 2024-08-05 21:31:41 字数 340 浏览 10 评论 0原文

我正在用 Java 编写 unicode 文本的正则表达式。然而，对于我正在使用的特定脚本 - 天城文 (0900 - 097F)，单词边界存在问题。 \b 匹配从属元音字符（如 093E-094C），因为它们被视为空格字符。

例子：假设我有字符串：“कमल कमाल कम्हल कम्हाल” 请注意，第二个单词中的“मा”是由 म 和 ा（被识别为空格字符）组合而成。最后一句话也是如此。这导致 \b 将 'कमाल' 中的 'ल' 与正则表达式 \b\w\b 匹配，根据语言，这是不正确的。

我希望这个例子有帮助。

我可以编写一个行为类似于 \b 的正则表达式，只是它不匹配某些字符吗？任何反馈将不胜感激。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

嘿哥们儿 2024-08-12 21:31:41

您应该能够使用以下正则表达式运算符完成您想要的操作：（

(?=X)   X, via zero-width positive lookahead
(?!X)   X, via zero-width negative lookahead
(?<=X)  X, via zero-width positive lookbehind
(?<!X)  X, via zero-width negative lookbehind

以上引用自 Java 6 Pattern API 文档。）

使用 (? 代替单词之前的 \b，以及之后的 (?<=[foo])(?![foo]) 代替 \b一个单词，其中“[foo]”是您的“单词字符”集

You should be able to accomplish what you want with the following regex operators:

(?=X)   X, via zero-width positive lookahead
(?!X)   X, via zero-width negative lookahead
(?<=X)  X, via zero-width positive lookbehind
(?<!X)  X, via zero-width negative lookbehind

(The above is quoted from the Java 6 Pattern API docs.)

Use (?<![foo])(?=[foo]) in place of \b before a word, and (?<=[foo])(?![foo]) in place of \b after a word, where "[foo]" is your set of "word characters"

回复收藏 0 原文

下雨或天晴 2024-08-12 21:31:41

单词边界的等价物（如果边界不是您所期望的）将是：

 (?<!=[x-y])(<?=[x-y])...(?<=[x-y])(?![x-y])

那是因为“单词边界”意味着“一侧有字符而不是另一侧有字符的位置）

所以用look-在后面和前瞻表达式中，您可以定义自己的字符类 [xy] 来检查何时要隔离“单词边界”

The equivalent for word boundaries (if the boundaries are not what you were expecting for) would be:

 (?<!=[x-y])(<?=[x-y])...(?<=[x-y])(?![x-y])

That is because a "word boundary" means "a location where there is a character on one side and not on the other)

So with look-behind and look-ahead expressions, you can define you own class of characters [x-y] to check when you want to isolate a "word boundary"

回复收藏 0 原文

~没有更多了~

关于作者

一枫情书

暂无简介

文章

25 人气

关注发私信

友情链接

文江博客

\b 的正则表达式

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

琉璃梦幻

qq_4zWU6L

话少情深

西西弗的石头怪

彻夜缠绵

千寻…

友情链接

\b 的正则表达式

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

琉璃梦幻

qq_4zWU6L

话少情深

西西弗的石头怪

彻夜缠绵

千寻…

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。