关于python正则re.search匹配的困惑

发布于 2022-09-12 13:19:21 字数 416 浏览 13 评论 0

re.search(r'(%[0-9a-fA-F]{2})', r'自定:%E8%87%AA%E5%AE%9A%E5')
# '%E8'
re.search(r'(%[0-9a-fA-F]{2})*', r'自定:%E8%87%AA%E5%AE%9A%E5')
# ''
re.search(r'((%[0-9a-fA-F]{2})*)', r'自定:%E8%87%AA%E5%AE%9A%E5')
# ''
re.search(r'(?<=:)((%[0-9a-fA-F]{2})*)', r'自定:%E8%87%AA%E5%AE%9A%E5')
# '%E8%87%AA%E5%AE%9A%E5'

请问为什么第一行可以匹配到一个hex，二三行却匹配到一个空字符？
为什么第四行设定了前方是一个:后，又匹配到了全部的hex字符？

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

司马昭之心 2022-09-19 13:19:21

请问为什么第一行可以匹配到一个hex，二三行却匹配到一个空字符？

(%[0-9a-fA-F]{2}) 的意思是“% 后面跟着两个范围内的数字或字母，且只匹配一次”；
re.search 只返回从左到右第一个匹配的对象
* 表示匹配零次或多次

所以第一行可以匹配到字符串最左边的 %E8，而且只匹配到一个。而第二、三行由于 * 的存在，第一个匹配到的是最左边的空字符，所以返回的是 ''。

如果使用 re.finditer() 就可以看到第二、三行是都可以匹配到全部的（%E8%87%AA%E5%AE%9A%E5）。进一步，如果直接将第二行的 * 改为 +，即匹配 1 次或多次，就会返回你想要的全部 hex：

>>> matches = re.finditer(r'(%[0-9a-fA-F]{2})*', r'自定:%E8%87%AA%E5%AE%9A%E5')
>>> for m in matches:
...     print(m)
...
<re.Match object; span=(0, 0), match=''>
<re.Match object; span=(1, 1), match=''>
<re.Match object; span=(2, 2), match=''>
<re.Match object; span=(3, 24), match='%E8%87%AA%E5%AE%9A%E5'>
<re.Match object; span=(24, 24), match=''>
>>> re.search(r'(%[0-9a-fA-F]{2})+', r'自定:%E8%87%AA%E5%AE%9A%E5')
<re.Match object; span=(3, 24), match='%E8%87%AA%E5%AE%9A%E5'>