匹配 Unicode“名称”使用 JavaScript 正则表达式

发布于 2024-10-30 15:10:42 字数 384 浏览 5 评论 0原文

在 JavaScript 中,我们可以使用 Unicode 转义序列来匹配各个 Unicode 代码点或代码点范围,例如:

"A".match(/\u0041/) // => ["A"]
"B".match(/[\u0041-\u007A]/) // => ["B"]

但是我们如何使用 JavaScript 正则表达式创建一个正则表达式来匹配必须包含任何 Unicode“字母”的正确名称?有字母范围吗? JavaScript 中特殊的正则表达式序列或字符类?

假设我的网站必须验证基于拉丁语以及希伯来语、西里尔语、日语(片假名、平假名等)的名称,这在 JavaScript 中是否可行,或者是委托给具有更好 Unicode 支持的后端语言的唯一明智选择?

In JavaScript we can match individual Unicode codepoints or codepoint ranges by using the Unicode escape sequences, e.g.:

"A".match(/\u0041/) // => ["A"]
"B".match(/[\u0041-\u007A]/) // => ["B"]

But how could we create a regular expression to match a proper name which must include any Unicode "letter" using a JavaScript regular expression? Is there a range of letters? A special regex sequence or character class in JavaScript?

Say my website must validate names that could be in latin based languages as well as Hebrew, Cyrillic, Japanese (Katakana, Hiragana, etc.) is this feasible in JavaScript or is the only sane choice to delegate to a backend language with better Unicode support?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

狂之美人 2024-11-06 15:10:42

这是一个为 RegEx 添加 Unicode 支持的 JS 插件

http://xregexp.com/plugins/

Here's a JS plugin that adds Unicode support to RegEx

http://xregexp.com/plugins/

一梦等七年七年为一梦 2024-11-06 15:10:42

我正在使用此站点 http://www.fileformat.info 定义符号的 unicode。

Unicode 块(基本拉丁语、.+、西里尔语、.+、阿拉伯语等):
http://www.fileformat.info/info/unicode/block/index.htm

Unicode 字符类别(这在 JS 中不起作用):
http://www.fileformat.info/info/unicode/category/index.htm

字母(A-я):
http://www.fileformat.info/info/unicode/char/a.htm

字体(每种字体支持哪些字符):
http://www.fileformat.info/info/unicode/font/index.htm

上述所有内容的索引
http://www.fileformat.info/info/unicode/index.htm

I am using for defining unicode of a symbols this site http://www.fileformat.info.

Unicode Blocks (Basic Latin, .+, Cyrillic, .+, Arabic and other):
http://www.fileformat.info/info/unicode/block/index.htm

Unicode Character Categories (this does not work in JS):
http://www.fileformat.info/info/unicode/category/index.htm

Letters (A-я):
http://www.fileformat.info/info/unicode/char/a.htm

Fonts (which chars are supported in each font):
http://www.fileformat.info/info/unicode/font/index.htm

Index for all above
http://www.fileformat.info/info/unicode/index.htm

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文