有没有办法匹配任意 Unicode 字母字符?
我有一些文档经过 OCR 从 PDF 转换为 HTML。因此,他们最终会出现很多随机的 unicode 标点符号,而转换器会搞砸(即省略号等)。他们也正确地有一堆非…
什么是 {L} Unicode 类别?
我遇到了一些包含 [^\\p{L}] 的正则表达式。我知道这是使用某种形式的 Unicode 类别,但是当我检查 在文档中,我只找到了以下“L”类别: Lu Uppercas…
具有特殊字符的名称的正则表达式 (Unicode)
好吧,我已经读了一整天有关正则表达式的内容,但仍然没有正确理解它。我想做的是验证名称,但我在互联网上可以找到的函数仅使用 [a-zA-Z],而忽略了…
在 Ruby 中枚举字符的 Unicode 属性?
有什么方法可以枚举 Ruby 中字符的所有 Unicode 属性吗?我可以使用 Ruby 1.9 的 Regexp 类来测试给定字符是否具有特定属性(例如,some_char =~ /\p{…
Javascript unicode(希腊语)正则表达式
我想在希腊文本中使用此正则表达式 new RegExp("\b"+pat+"\b") ,但“\b”元字符仅支持 ASCII 字符。 我尝试了 XregExp 库,但我没能解决这个问题。 …
包含 unicode 单词的正则表达式
我想匹配包含某个单词的所有字符串。就像: String regex = (?:\P{L}|\W|^)(ベスパ)(?:\b|$) 但是,Pattern 类不会编译它: java.util.regex.PatternS…
\w 是否匹配 Unicode 标准中定义的所有字母数字字符?
Perl 的 \w 是否匹配 Unicode 标准中定义的所有字母数字字符? 例如,\w 是否匹配所有(例如)中文和俄语字母数字字符人物? 我编写了一个简单的测试…
匹配 Unicode“名称”使用 JavaScript 正则表达式
在 JavaScript 中,我们可以使用 Unicode 转义序列来匹配各个 Unicode 代码点或代码点范围,例如: "A".match(/\u0041/) // => ["A"] "B".match(/[\…
将(例如)Unicode 字母与 Java 正则表达式匹配
StackOverflow 上有很多问题和答案,假设“字母”可以在正则表达式中通过 [a-zA-Z] 进行匹配。然而,对于 Unicode,还有更多的字符被大多数人视为字母…
Java 中的正则表达式将字母数字作为输入,后跟正斜杠,然后再输入字母数字
我需要一个正则表达式,它接受字母数字作为输入,后跟正斜杠,然后再次输入字母数字。我如何在Java中为此编写正则表达式? 示例如下: adc9/fer4 我尝…
PCRE/PHP 中匹配 Unicode 字母字符
我正在尝试在 PHP 中编写一个相当宽松的名称验证器,我的第一次尝试包含以下模式: // unicode letters, apostrophe, hyphen, space $namePattern = "…
Unicode 字母字符列表
我需要具有 Alphabetic 属性的 Unicode 字符范围列表,如 http://www.unicode.org/Public/5.1.0/ucd/UCD.html#Alphabetic。但是,无论我如何搜索,我…
Ruby:如何检查 UTF-8 字符串是否仅包含字母和数字?
我有一个 UTF-8 字符串,它可能是任何语言的。 如何检查它是否不包含任何非字母数字字符? 我在 UnicodeUtils Ruby gem 中找不到这样的方法。 示例: …
匹配 ASCII 和 Unicode 字母的正则表达式
最近,我惊讶地发现 JavaScript 没有内置对 Unicode 正则表达式的支持。 那么如何测试字符串中的字母(Unicode 或 ASCII)呢?…
使用正则表达式匹配 C# Unicode 标识符
使用 .Net Regex 模式匹配 C# 标识符(特别是属性或字段名称)的正确方法是什么? 背景。我曾经使用以 ASCII 为中心的 @"[_a-zA-Z][_a-zA-Z0-9]*" 但…