Unicode 正则表达式 - 在 343 个字符处失败

发布于 2024-09-07 19:52:41 字数 616 浏览 14 评论 0原文

我使用下面的正则表达式来清除任何非拉丁字符。结果，我发现如果我使用大于 342 个字符的字符串，该函数就会失败，一切都会中止，并且网站连接会被重置。

我将其缩小到 \p{P} unicode 字符属性，它与任何标点符号匹配。

有谁知道/看到问题到底出在哪里？

<代码> preg_match('/^([\p{P}\p{S}&\p{拉丁}0-9]|\s)*$/u'aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa啊哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈啊哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈啊啊啊啊啊啊啊啊”）；

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

情绪少女 2024-09-14 19:52:41

如果您要“淘汰”非拉丁字符，为什么不这样做：

preg_replace('/[^\p{Latin}]+/u', '', $s)

编辑：好的，所以您正在尝试验证输入。我本来想说，使用这个：

preg_match('/^[\p{Latin}]+$/u', $s)

...但事实证明它只匹配拉丁字母字母。我正在考虑 Java 未记录的简写 \p{L1}，它匹配 Latin1 (ISO-8859-1) 字符集中的所有内容，但在 PHP 中你必须将其拼写出来：

preg_match('/^[\x00-\xFF]+$/u', $s)

If you're "weeding out" non-Latin characters, why not just do this:

preg_replace('/[^\p{Latin}]+/u', '', $s)

EDIT: Okay, so you're trying to validate the input. I was going to say, use this:

preg_match('/^[\p{Latin}]+$/u', $s)

...but it turns out that only matches Latin letters. I was thinking of Java's undocumented shorthand, \p{L1}, which matches everything in the Latin1 (ISO-8859-1) character set, but in PHP you have to spell it out: