当前位置：文江博客话题详情

在 Java 中匹配泰语脚本字符

发布于 2024-10-25 01:41:17 字数 209 浏览 11 评论 0原文

在过去的两个小时里，我与数据库中的泰语脚本字符串度过了很多性感的时光。它们整理得很神秘，输出时会变异，没有自然秩序，是一场灾难。

我想忽略任何带有泰语脚本字符的字符串，但我不知道如何：

Pattern.compile("\\p{Thai}") 在初始化时失败。 “[ก-๛]” - 这会起作用吗？正确的方法是什么？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

情定在深秋 2024-11-01 01:41:17

Thai 是一个 Unicode 块，Unicode 块应指定为 \p{In...}：

Pattern.compile("\\p{InThai}")

Thai is a Unicode block, and Unicode blocks should be specified as \p{In...}:

Pattern.compile("\\p{InThai}")

回复收藏 0 原文

蓝戈者 2024-11-01 01:41:17

当您指的是 Unicode 脚本时，不应使用 Unicode 块。例如，฿（Unicode 中的代码点 U+0E3F THAI CURRENCY SYMBOL BAHT）是一个 \p{Block=Thai} ᴀᴋᴀ \p{InThai} 字符，但它不是 \p{Script=Thai} ᴀᴋᴀ \p{IsThai} 字符。它是 \p{Script=Common} 集的货币符号。

对于像希腊语这样的大集合尤其如此。希腊语块中有 18 个代码点不在希腊字母中，希腊字母中有 250 个代码点不在希腊块中。

幸运的是，您不必担心泰语的情况，因为从 Unicode 6.0 开始，只有 U+0E3F 是异常值。您对此感到双重幸运，因为标准 Java 不支持 Java 7 之前的 Unicode 脚本；奇怪但真实。对于早于 JDK7 的版本中的 Unicode 脚本支持，您必须使用 JNI 来获取 ICU 正则表达式库，就像 Google 对 Android 上的 Java 所做的那样。不过，他们的方法有很多好处，因此即使它是 JNI，也可能值得考虑。

回复收藏 0 原文

~没有更多了~