Javascript unicode（希腊语）正则表达式

发布于 2024-10-31 21:06:09 字数 192 浏览 15 评论 0原文

我想在希腊文本中使用此正则表达式 new RegExp("\b"+pat+"\b") ，但“\b”元字符仅支持 ASCII 字符。

我尝试了 XregExp 库，但我没能解决这个问题。

任何建议将不胜感激。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

小嗲 2024-11-07 21:06:09

我认为这对您的回答有帮助。，

<script src="xregexp.js"></script>
<script src="xregexp-unicode-base.js"></script>
<script>
    var unicodeWord = XRegExp("^\\p{L}+$");

    unicodeWord.test("Русский"); // true
    unicodeWord.test("日本語"); // true
    unicodeWord.test("العربية"); // true
</script>

<!-- \p{L} is included in the base script, but other categories, scripts,
and blocks require token packages -->
<script src="xregexp-unicode-scripts.js"></script>
<script>
    XRegExp("^\\p{Katakana}+$").test("カタカナ"); // true
</script>

请参考以下位置：
http://xregexp.com/plugins/

I think this was helpful to your answer.,

<script src="xregexp.js"></script>
<script src="xregexp-unicode-base.js"></script>
<script>
    var unicodeWord = XRegExp("^\\p{L}+$");

    unicodeWord.test("Русский"); // true
    unicodeWord.test("日本語"); // true
    unicodeWord.test("العربية"); // true
</script>

<!-- \p{L} is included in the base script, but other categories, scripts,
and blocks require token packages -->
<script src="xregexp-unicode-scripts.js"></script>
<script>
    XRegExp("^\\p{Katakana}+$").test("カタカナ"); // true
</script>

Please refer the following location :
http://xregexp.com/plugins/

回复收藏 0 原文

杀手六號 2024-11-07 21:06:09

所以答案是，你不能使用 JavaScript 本机机制或任何使用这些机制的库来按照你想要的方式匹配单词。正如您已经说过的， \b 匹配单词。单词必须由单词字符组成。在 JavaScript 中（实际上其他正则表达式实现中，单词字符是 az、AZ、0-9 和 _。但许多其他语言只是以与 JavaScript 不同的方式实现 \b 元字符。

答案“JavaScript”不支持 Unicode”有点简单，事实上完全错误。JavaScript 只是不使用 unicode 作为字符类。如果 JavaScript 不支持 unicode，你甚至不能在字符串文字中使用 unicode 字符，当然这根据

ECMA 262 标准 (ECMAScript)（第 15.10.2.6 节）：

[...]
产生式 Assertion :: \ b 通过返回一个采用 State 的内部 AssertionTester 闭包来进行评估
参数 x 并执行以下操作：

令 e 为 x 的 endIndex。
调用 IsWordChar(e–1) 并令 a 为布尔结果。
调用 IsWordChar(e) 并令 b 为布尔结果。
如果 a 为 true，b 为 false，则返回 true。
如果 a 为假且 b 为真，则返回 true。
返回假。
[..]

抽象操作 IsWordChar 采用整数参数 e 并执行以下操作：

如果 e == –1 或 e == InputLength，则返回 false。
令c 为字符Input[e]。
如果 c 是下面 63 个字符之一，则返回 true。
abcdefghijklmnopqrstu vwxyz
ABCDEFGHIJKLMNOPQRSTU VWXYZ
0 1 2 3 4 5 6 7 8 9 _
Return false

这只是表明， \b 使用“isWordChar”算法来检查您尝试匹配的内容是否实际上是一个单词。在“isWordChar”的定义中，您可以看到哪些字符将为“isWordChar”返回 true 的确切定义。

在我看来，这与所使用的字符集完全无关。这里既不兼容 ASCII 也不兼容 UNICODE。就这63个字符。