如何获取具有给定属性的所有 Unicode 字符的列表？

发布于 2024-07-29 01:35:36 字数 234 浏览 16 评论 0原文

如果不循环整个 Unicode 字符范围，如何获取具有给定属性的字符列表？特别是我想要一个所有数字字符的列表（即那些匹配 /\d/ 的字符）。我查看了 Unicode::UCD，它是对于确定给定字符的属性很有用，但似乎没有办法获取具有属性的列表字符。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

破晓 2024-08-05 01:35:36

每个类的 Unicode 字符列表是在编译 Perl 时从 Unicode 规范生成的，通常存储在 /usr/lib/perl-YOURPERLVERSION/unicore/lib/gc_sc/

例如，匹配的 Unicode 字符范围列表IsDigit（又名 \d）存储在文件 /usr/lib/perl-YOURPERLVERSION/unicore/lib/gc_sc/Digit.pl 中

回复收藏 0 原文

面如桃花 2024-08-05 01:35:36

unicore/To/Digit.pl 甚至比 unicore/lib/gc_sc/Digit.pl 更好。它是 Unicode 数字字符（实际上是它们的偏移量）到它们的数值的直接映射。这意味着

use Unicode::Digits qw/digit_to_int/;

my @digits;
for (split "\n", require "unicore/lib/gc_sc/Digit.pl") {
    my ($s, $e) = map hex, split;
    for (my $ord = $s; $ord <= $e; $ord++) {
        my $chr = chr $ord;
        push @{$digits[digits_to_int $chr]}, $chr;
    }
}

for my $i (0 .. 9) {
    my $re = join '', "[", @{$digits[$i]}, "]";
    $digits[$i] = qr/$re/;
}

我可以说：

my @digits;
for (split "\n", require "unicore/To/Digit.pl") {
    my ($ord, $val) = split;
    my $chr = chr hex $ord;
    push @{$digits[$val]}, $chr;
}

for my $i (0 .. 9) {
    my $re = join '', "[", @{$digits[$i]}, "]";
    $digits[$i] = qr/$re/;
}

甚至更好：

my @digits;
for (split "\n", require "unicore/To/Digit.pl") {
    my ($ord, $val) = split;
    $digits[$val] .= "\\x{$ord}";
}
@digits = map { qr/[$_]/ } @digits;

Even better than unicore/lib/gc_sc/Digit.pl is unicore/To/Digit.pl. It is a direct mapping of Unicode digit characters (well, really their offsets) to their numeric values. This means instead of:

use Unicode::Digits qw/digit_to_int/;

my @digits;
for (split "\n", require "unicore/lib/gc_sc/Digit.pl") {
    my ($s, $e) = map hex, split;
    for (my $ord = $s; $ord <= $e; $ord++) {
        my $chr = chr $ord;
        push @{$digits[digits_to_int $chr]}, $chr;
    }
}

for my $i (0 .. 9) {
    my $re = join '', "[", @{$digits[$i]}, "]";
    $digits[$i] = qr/$re/;
}

I can say:

my @digits;
for (split "\n", require "unicore/To/Digit.pl") {
    my ($ord, $val) = split;
    my $chr = chr hex $ord;
    push @{$digits[$val]}, $chr;
}

for my $i (0 .. 9) {
    my $re = join '', "[", @{$digits[$i]}, "]";
    $digits[$i] = qr/$re/;
}

Or even better:

my @digits;
for (split "\n", require "unicore/To/Digit.pl") {
    my ($ord, $val) = split;
    $digits[$val] .= "\\x{$ord}";
}
@digits = map { qr/[$_]/ } @digits;

回复收藏 0 原文