Python正则表达式与unicode字符错误？

发布于 2024-09-16 19:38:33 字数 433 浏览 15 评论 0原文

长话短说：

>>> re.compile(r"\w*").match(u"Français")
<_sre.SRE_Match object at 0x1004246b0>
>>> re.compile(r"^\w*$").match(u"Français")
>>> re.compile(r"^\w*$").match(u"Franais")
<_sre.SRE_Match object at 0x100424780>
>>>

为什么它不与正则表达式中的 ^ 和 $ 匹配带有 unicode 字符的字符串？据我了解 ^ 代表字符串（行）的开头，而 $ - 代表字符串的结尾。

原文

Long story short:

>>> re.compile(r"\w*").match(u"Français")
<_sre.SRE_Match object at 0x1004246b0>
>>> re.compile(r"^\w*$").match(u"Français")
>>> re.compile(r"^\w*$").match(u"Franais")
<_sre.SRE_Match object at 0x100424780>
>>>

Why doesn't it match the string with unicode characters with ^ and $ in the regex? As far as I understand ^ stands for the beginning of the string(line) and $ - for the end of it.

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

蝶舞 2024-09-23 19:38:33

您需要指定 UNICODE 标志，否则 \w 仅相当于 [a-zA-Z0-9_]，其中不包含字符“ç”。

>>> re.compile(r"^\w*$", re.U).match(u"Fran\xe7ais")
<_sre.SRE_Match object at 0x101474168>

You need to specify the UNICODE flag, otherwise \w is just equivalent to [a-zA-Z0-9_], which does not include the character 'ç'.

>>> re.compile(r"^\w*$", re.U).match(u"Fran\xe7ais")
<_sre.SRE_Match object at 0x101474168>

回复收藏 0 原文

~没有更多了~

关于作者

回眸一笑

暂无简介

文章

999 人气

关注发私信

5040234068

文章 0 评论 0

关注

樱花雨梦

文章 0 评论 0

关注

≈。彩虹

文章 0 评论 0

关注

雨轻弹

文章 0 评论 0

关注

血之狂魔

文章 0 评论 0

关注

qq_0bIjwE

文章 0 评论 0

友情链接

文江博客

Python正则表达式与unicode字符错误？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

5040234068

樱花雨梦

≈。彩虹

雨轻弹

血之狂魔

qq_0bIjwE

友情链接

Python正则表达式与unicode字符错误？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

5040234068

樱花雨梦

≈。彩虹

雨轻弹

血之狂魔

qq_0bIjwE

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。