当前位置：文江博客话题详情

Lua 模式匹配逗号周围

发布于 2025-01-03 10:33:42 字数 181 浏览 2 评论 0原文

我有几个小位置标记，例如“א，א”“א，ב”。如果我们使用逗号作为中心点，则逗号之前最多需要 2 个字符，直到逗号之后的下一个空格。

我有 (.-,.-)%s 但它没有做我需要的事情。有什么想法吗？

另外，正如您所看到的，没有拉丁字母，因此使用 %l 将不起作用。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

暗喜 2025-01-10 10:33:42

这里有几个问题。首先，一个小问题：.-, 将在逗号之前匹配尽可能少的字符，即零个字符。您应该锚定匹配字符串的开头。

更复杂的问题是您使用希伯来字母。问题是 Lua 没有多字节字符的概念。

如果您使用 8 位编码，例如 Windows-1255 或 ISO-8859-8，那么您可能可以简单地匹配字符类 [ת-א]。如果您已正确设置希伯来语区域设置，则 %l 应该可以正常工作。

如果您使用 UTF-8 或任何其他使用多字节字符的编码，则必须构造一个正则表达式，将所有希伯来字母转义为八位位组序列。 aleph 是 U+05D0x，在 UTF-8 中将表示为 0xD7 0x90。 tav 为 U+05EA，将被编码为 0xD7 0xAA。

在Lua中，您可以使用反斜杠+十进制代码转义任何8位字符。所有以 UTF-8 编码的希伯来语字符的第一个字节都是相同的 - 0xD7，即 "\215"。第二个字符可以是 "\144" 到 "\170" 之间的任何字符。因此，匹配单个希伯来字母的正则表达式是："\215[\144-\170]"。将其放入原始正则表达式中，其中有与任何字符匹配的单个点。

当然，对于与 UTF-8 不同的编码，必须修改上述推理。希伯来语从右到左的书写方向是另一件事要记住。