使用 Python 和 Regex 查找字符串中的所有中文文本
今天我需要从一堆字符串中去掉中文,并且正在寻找一个简单的 Python 正则表达式。有什么建议吗?
I needed to strip the Chinese out of a bunch of strings today and was looking for a simple Python regex. Any suggestions?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
Python 2:
Python 3:
输出:
关于Unicode 代码块:
4E00—9FFF
范围涵盖CJK 统一表意文字(CJK=中文、日文和韩文)。有许多较低的范围在某种程度上与 CJK 相关:Python 2:
Python 3:
Output:
About Unicode code blocks:
The
4E00—9FFF
range covers CJK Unified Ideographs (CJK=Chinese, Japanese and Korean). There are a number of lower ranges that relate, to some degree, to CJK:python 的窄 Unicode 构建的简短但相对全面的答案(不包括序数 > 65535,它只能通过代理项对在窄 Unicode 构建中表示):
用于构建 RE 的代码,以及是否需要检测用于宽构建的补充平面:
The short, but relatively comprehensive answer for narrow Unicode builds of python (excluding ordinals > 65535 which can only be represented in narrow Unicode builds via surrogate pairs):
The code for building the RE, and if you need to detect Chinese characters in the supplementary plane for wide builds: