匹配 Unicode“名称”使用 JavaScript 正则表达式
在 JavaScript 中,我们可以使用 Unicode 转义序列来匹配各个 Unicode 代码点或代码点范围,例如:
"A".match(/\u0041/) // => ["A"]
"B".match(/[\u0041-\u007A]/) // => ["B"]
但是我们如何使用 JavaScript 正则表达式创建一个正则表达式来匹配必须包含任何 Unicode“字母”的正确名称?有字母范围吗? JavaScript 中特殊的正则表达式序列或字符类?
假设我的网站必须验证基于拉丁语以及希伯来语、西里尔语、日语(片假名、平假名等)的名称,这在 JavaScript 中是否可行,或者是委托给具有更好 Unicode 支持的后端语言的唯一明智选择?
In JavaScript we can match individual Unicode codepoints or codepoint ranges by using the Unicode escape sequences, e.g.:
"A".match(/\u0041/) // => ["A"]
"B".match(/[\u0041-\u007A]/) // => ["B"]
But how could we create a regular expression to match a proper name which must include any Unicode "letter" using a JavaScript regular expression? Is there a range of letters? A special regex sequence or character class in JavaScript?
Say my website must validate names that could be in latin based languages as well as Hebrew, Cyrillic, Japanese (Katakana, Hiragana, etc.) is this feasible in JavaScript or is the only sane choice to delegate to a backend language with better Unicode support?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
这是一个为 RegEx 添加 Unicode 支持的 JS 插件
http://xregexp.com/plugins/
Here's a JS plugin that adds Unicode support to RegEx
http://xregexp.com/plugins/
我正在使用此站点 http://www.fileformat.info 定义符号的 unicode。
Unicode 块(基本拉丁语、.+、西里尔语、.+、阿拉伯语等):
http://www.fileformat.info/info/unicode/block/index.htm
Unicode 字符类别(这在 JS 中不起作用):
http://www.fileformat.info/info/unicode/category/index.htm
字母(A-я):
http://www.fileformat.info/info/unicode/char/a.htm
字体(每种字体支持哪些字符):
http://www.fileformat.info/info/unicode/font/index.htm
上述所有内容的索引
http://www.fileformat.info/info/unicode/index.htm
I am using for defining unicode of a symbols this site http://www.fileformat.info.
Unicode Blocks (Basic Latin, .+, Cyrillic, .+, Arabic and other):
http://www.fileformat.info/info/unicode/block/index.htm
Unicode Character Categories (this does not work in JS):
http://www.fileformat.info/info/unicode/category/index.htm
Letters (A-я):
http://www.fileformat.info/info/unicode/char/a.htm
Fonts (which chars are supported in each font):
http://www.fileformat.info/info/unicode/font/index.htm
Index for all above
http://www.fileformat.info/info/unicode/index.htm