内容提要
作者简介
技术评审者简介
致谢
译者序会编程的人不一样
前言
本书的读者对象
编码规范
什么是编程
本书简介
下载和安装 Python
启动 IDLE
如何寻求帮助
聪明地提出编程问题
小结
第一部分 Python 编程基础
第1章 Python 基础
- 1.1 在交互式环境中输入表达式
- 1.2 整型、浮点型和字符串数据类型
- 1.3 字符串连接和复制
- 1.4 在变量中保存值
- 1.5 第一个程序
- 1.6 程序剖析
- 1.7 小结
- 1.8 习题
第2章控制流
- 2.1 布尔值
- 2.2 比较操作符
- 2.3 布尔操作符
- 2.4 混合布尔和比较操作符
- 2.5 控制流的元素
- 2.6 程序执行
- 2.7 控制流语句
- 2.8 导入模块
- 2.9 用 sys.exit() 提前结束程序
- 2.10 小结
- 2.11 习题
第3章函数
- 3.1 def 语句和参数
- 3.2 返回值和 return 语句
- 3.3 None 值
- 3.4 关键字参数和 print()
- 3.5 局部和全局作用域
- 3.6 global 语句
- 3.7 异常处理
- 3.8 一个小程序：猜数字
- 3.9 小结
- 3.10 习题
- 3.11 实践项目
第4章列表
- 4.1 列表数据类型
- 4.2 使用列表
- 4.3 增强的赋值操作
- 4.4 方法
- 4.5 例子程序：神奇8球和列表
- 4.6 类似列表的类型：字符串和元组
- 4.7 引用
- 4.8 小结
- 4.9 习题
- 4.10 实践项目
第5章字典和结构化数据
- 5.1 字典数据类型
- 5.2 漂亮打印
- 5.3 使用数据结构对真实世界建模
- 5.4 小结
- 5.5 习题
- 5.6 实践项目
第6章字符串操作
- 6.1 处理字符串
- 6.2 有用的字符串方法
- 6.3 项目：口令保管箱
- 6.4 项目：在 Wiki 标记中添加无序列表
- 6.5 小结
- 6.6 习题
- 6.7 实践项目
第二部分自动化任务
第7章模式匹配与正则表达式
- 7.1 不用正则表达式来查找文本模式
- 7.2 用正则表达式查找文本模式
- 7.3 用正则表达式匹配更多模式
- 7.4 贪心和非贪心匹配
- 7.5 findall() 方法
- 7.6 字符分类
- 7.7 建立自己的字符分类
- 7.8 插入字符和美元字符
- 7.9 通配字符
- 7.10 正则表达式符号复习
- 7.11 不区分大小写的匹配
- 7.12 用sub()方法替换字符串
- 7.13 管理复杂的正则表达式
- 7.14 组合使用 re.IGNOREC ASE、re.DOTALL 和 re.VERBOSE
- 7.15 项目：电话号码和 E-mail 地址提取程序
- 7.16 小结
- 7.17 习题
- 7.18 实践项目
第8章读写文件
- 8.1 文件与文件路径
- 8.2 文件读写过程
- 8.3 用 shelve 模块保存变量
- 8.4 用 pprint.pformat() 函数保存变量
- 8.5 项目：生成随机的测验试卷文件
- 8.6 项目：多重剪贴板
- 8.7 小结
- 8.8 习题
- 8.9 实践项目
第9章组织文件
- 9.1 shutil 模块
- 9.2 遍历目录树
- 9.3 用 zipfile 模块压缩文件
- 9.4 项目：将带有美国风格日期的文件改名为欧洲风格日期
- 9.5 项目：将一个文件夹备份到一个ZIP文件
- 9.6 小结
- 9.7 习题
- 9.8 实践项目
第10章调试
- 10.1 抛出异常
- 10.2 取得反向跟踪的字符串
- 10.3 断言
- 10.4 日志
- 10.5 IDLE的调试器
- 10.6 小结
- 10.7 习题
- 10.8 实践项目
第11章从 Web 抓取信息
- 11.1 项目：利用 webbrowser 模块的 mapIt.py
- 11.2 用 requests 模块从 Web 下载文件
- 11.3 将下载的文件保存到硬盘
- 11.4 HTML
- 11.5 用 BeautifulSoup 模块解析 HTML
- 11.6 项目：I’m Feeling Lucky Google 查找
- 11.7 项目：下载所有 XKCD 漫画
- 11.8 用 selenium 模块控制浏览器
- 11.9 小结
- 11.10 习题
- 11.11 实践项目
第12章处理 Excel 电子表格
- 12.1 Excel 文档
- 12.2 安装 openpyxl 模块
- 12.3 读取 Excel 文档
- 12.4 项目：从电子表格中读取数据
- 12.5 写入 Excel 文档
- 12.6 项目：更新一个电子表格
- 12.7 设置单元格的字体风格
- 12.8 Font 对象
- 12.9 公式
- 12.10 调整行和列
- 12.11 小结
- 12.12 习题
- 12.13 实践项目
第13章处理 PDF 和 Word 文档
- 13.1 PDF 文档
- 13.2 项目：从多个 PDF 中合并选择的页面
- 13.3 Word 文档
- 13.4 小结
- 13.5 习题
- 13.6 实践项目
第14章处理 CSV 文件和 JSON 数据
- 14.1 csv 模块
- 14.2 项目：从 CSV 文件中删除表头
- 14.3 JSON 和 API
- 14.4 json 模块
- 14.5 项目：取得当前的天气数据
- 14.6 小结
- 14.7 习题
- 14.8 实践项目
第15章保持时间、计划任务和启动程序
- 15.1 time 模块
- 15.2 数字四舍五入
- 15.3 项目：超级秒表
- 15.4 datetime 模块
- 15.5 回顾 Python 的时间函数
- 15.6 多线程
- 15.7 项目：多线程 XKCD 下载程序
- 15.8 从 Python 启动其他程序
- 15.9 项目：简单的倒计时程序
- 15.10 小结
- 15.11 习题
- 15.12 实践项目
第16章发送电子邮件和短信
- 16.1 SMTP
- 16.2 发送电子邮件
- 16.3 IMAP
- 16.4 用 IMAP 获取和删除电子邮件
- 16.5 项目：向会员发送会费提醒电子邮件
- 16.6 用 Twilio 发送短信
- 16.7 项目：只给我发短信模块
- 16.8 小结
- 16.9 习题
- 16.10 实践项目
第17章操作图像
- 17.1 计算机图像基础
- 17.2 用 Pillow 操作图像
- 17.3 项目：添加徽标
- 17.4 在图像上绘画
- 17.5 小结
- 17.6 习题
- 17.7 实践项目
第18章用 GUI 自动化控制键盘和鼠标
- 18.1 安装 pyautogui 模块
- 18.2 走对路
- 18.3 控制鼠标移动
- 18.4 项目：现在鼠标在哪里？
- 18.5 控制鼠标交互
- 18.6 处理屏幕
- 18.7 项目：扩展 mouseNow 程序
- 18.8 图像识别
- 18.9 控制键盘
- 18.10 复习 PyAutoGUI 的函数
- 18.11 项目：自动填表程序
- 18.12 小结
- 18.13 习题
- 18.14 实践项目
附录A 安装第三方模块
- A.1 pip 工具
- A.2 安装第三方模块
附录B 运行程序
- B.1 第一行
- B.2 在 Windows 上运行 Python 程序
- B.3 在 OS X 和 Linux 上运行 Python 程序
- B.4 运行 Python 程序时禁用断言
附录C 习题答案
- 第1章
- 第2章
- 第3章
- 第4章
- 第5章
- 第6章
- 第7章
- 第8章
- 第9章
- 第10章
- 第11章
- 第12章
- 第13章
- 第14章
- 第15章
- 第16章
- 第17章
- 第18章

文章来源于网络收集而来，版权归原创者所有，如有侵权请及时联系！

7.3 用正则表达式匹配更多模式

发布于 2024-01-22 21:44:06 字数 5300 浏览 0 评论 0 收藏 0

既然你已知道用Python创建和查找正则表达式对象的基本步骤，就可以尝试一些更强大的模式匹配功能了。

7.3.1 利用括号分组

假定想要将区号从电话号码中分离。添加括号将在正则表达式中创建“分组”：(\d\d\d)-(\d\d\d-\d\d\d\d)。然后可以使用group()匹配对象方法，从一个分组中获取匹配的文本。

正则表达式字符串中的第一对括号是第1组。第二对括号是第2组。向group()匹配对象方法传入整数1或2，就可以取得匹配文本的不同部分。向group()方法传入0或不传入参数，将返回整个匹配的文本。在交互式环境中输入以下代码：

>>> phoneNumRegex = re.compile(r'(\d\d\d)-(\d\d\d-\d\d\d\d)')
>>> mo = phoneNumRegex.search('My number is 415-555-4242.')
>>> mo.group(1)
'415'
>>> mo.group(2)
'555-4242'
>>> mo.group(0)
'415-555-4242'
>>> mo.group()
'415-555-4242'

如果想要一次就获取所有的分组，请使用groups()方法，注意函数名的复数形式。

>>> mo.groups()
('415', '555-4242')
>>> areaCode, mainNumber = mo.groups()
>>> print(areaCode)
415
>>> print(mainNumber)
555-4242

因为mo.groups()返回多个值的元组，所以你可以使用多重复制的技巧，每个值赋给一个独立的变量，就像前面的代码行：areaCode, mainNumber = mo.groups()。

括号在正则表达式中有特殊的含义，但是如果你需要在文本中匹配括号，怎么办？例如，你要匹配的电话号码，可能将区号放在一对括号中。在这种情况下，就需要用倒斜杠对(和)进行字符转义。在交互式环境中输入以下代码：

>>> phoneNumRegex = re.compile(r'(\(\d\d\d\)) (\d\d\d-\d\d\d\d)')
>>> mo = phoneNumRegex.search('My phone number is (415) 555-4242.')
>>> mo.group(1)
'(415)'
>>> mo.group(2)
'555-4242'

传递给re.compile()的原始字符串中，(和)转义字符将匹配实际的括号字符。

7.3.2 用管道匹配多个分组

字符|称为“管道”。希望匹配许多表达式中的一个时，就可以使用它。例如，正则表达式r'Batman|Tina Fey'将匹配'Batman'或'Tina Fey'。

如果Batman和Tina Fey都出现在被查找的字符串中，第一次出现的匹配文本，将作为Match对象返回。在交互式环境中输入以下代码：

>>> heroRegex = re.compile (r'Batman|Tina Fey')
>>> mo1 = heroRegex.search('Batman and Tina Fey.')
>>> mo1.group()
'Batman'

>>> mo2 = heroRegex.search('Tina Fey and Batman.')
>>> mo2.group()
'Tina Fey'

注意

利用findall()方法，可以找到“所有”匹配的地方。这在7.5节“findall()方法”中讨论。

也可以使用管道来匹配多个模式中的一个，作为正则表达式的一部分。例如，假设你希望匹配'Batman'、'Batmobile'、'Batcopter'和'Batbat'中任意一个。因为所有这些字符串都以Bat开始，所以如果能够只指定一次前缀，就很方便。这可以通过括号实现。在交互式环境中输入以下代码：

>>> batRegex = re.compile(r'Bat(man|mobile|copter|bat)')
>>> mo = batRegex.search('Batmobile lost a wheel')
>>> mo.group()
'Batmobile'
>>> mo.group(1)
'mobile'

方法调用mo.group()返回了完全匹配的文本'Batmobile'，而mo.group(1)只是返回第一个括号分组内匹配的文本'mobile'。通过使用管道字符和分组括号，可以指定几种可选的模式，让正则表达式去匹配。

如果需要匹配真正的管道字符，就用倒斜杠转义，即|。

7.3.3 用问号实现可选匹配

有时候，想匹配的模式是可选的。就是说，不论这段文本在不在，正则表达式都会认为匹配。字符?表明它前面的分组在这个模式中是可选的。例如，在交互式环境中输入以下代码：

>>> batRegex = re.compile(r'Bat(wo)?man')
>>> mo1 = batRegex.search('The Adventures of Batman')
>>> mo1.group()
'Batman'

>>> mo2 = batRegex.search('The Adventures of Batwoman')
>>> mo2.group()
'Batwoman'

正则表达式中的(wo)?部分表明，模式wo是可选的分组。该正则表达式匹配的文本中，wo将出现零次或一次。这就是为什么正则表达式既匹配'Batwoman'，又匹配'Batman'。

利用前面电话号码的例子，你可以让正则表达式寻找包含区号或不包含区号的电话号码。在交互式环境中输入以下代码：

>>> phoneRegex = re.compile(r'(\d\d\d-)?\d\d\d-\d\d\d\d')
>>> mo1 = phoneRegex.search('My number is 415-555-4242')
>>> mo1.group()
'415-555-4242'
>>> mo2 = phoneRegex.search('My number is 555-4242')
>>> mo2.group()
'555-4242'

你可以认为?是在说，“匹配这个问号之前的分组零次或一次”。

如果需要匹配真正的问号字符，就使用转义字符\?。

7.3.4 用星号匹配零次或多次

*（称为星号）意味着“匹配零次或多次”，即星号之前的分组，可以在文本中出现任意次。它可以完全不存在，或一次又一次地重复。让我们再来看看Batman的例子。

>>> batRegex = re.compile(r'Bat(wo)*man')
>>> mo1 = batRegex.search('The Adventures of Batman')
>>> mo1.group()
'Batman'

>>> mo2 = batRegex.search('The Adventures of Batwoman')
>>> mo2.group()
'Batwoman'

>>> mo3 = batRegex.search('The Adventures of Batwowowowoman')
>>> mo3.group()
'Batwowowowoman'

对于'Batman'，正则表达式的(wo)部分匹配wo的零个实例。对于'Batwoman'，(wo)匹配wo的一个实例。对于'Batwowowowoman'，(wo)*匹配wo的4个实例。

如果需要匹配真正的星号字符，就在正则表达式的星号字符前加上倒斜杠，即*。

7.3.5 用加号匹配一次或多次

*意味着“匹配零次或多次”，+（加号）则意味着“匹配一次或多次”。星号不要求分组出现在匹配的字符串中，但加号不同，加号前面的分组必须“至少出现一次”。这不是可选的。在交互式环境中输入以下代码，把它和前一节的星号正则表达式进行比较：

>>> batRegex = re.compile(r'Bat(wo)+man')
>>> mo1 = batRegex.search('The Adventures of Batwoman')
>>> mo1.group()
'Batwoman'

>>> mo2 = batRegex.search('The Adventures of Batwowowowoman')
>>> mo2.group()
'Batwowowowoman'

>>> mo3 = batRegex.search('The Adventures of Batman')
>>> mo3 == None
True

正则表达式Bat(wo)+man不会匹配字符串'The Adventures of Batman'，因为加号要求wo至少出现一次。

如果需要匹配真正的加号字符，在加号前面加上倒斜杠实现转义：+。

7.3.6 用花括号匹配特定次数

如果想要一个分组重复特定次数，就在正则表达式中该分组的后面，跟上花括号包围的数字。例如，正则表达式(Ha){3}将匹配字符串'HaHaHa'，但不会匹配'HaHa'，因为后者只重复了(Ha)分组两次。

除了一个数字，还可以指定一个范围，即在花括号中写下一个最小值、一个逗号和一个最大值。例如，正则表达式(Ha){3,5}将匹配'HaHaHa'、'HaHaHaHa'和'HaHaHaHaHa'。

也可以不写花括号中的第一个或第二个数字，不限定最小值或最大值。例如，(Ha){3,}将匹配3次或更多次实例，(Ha){,5}将匹配0到5次实例。花括号让正则表达式更简短。这两个正则表达式匹配同样的模式：

(Ha){3}
(Ha)(Ha)(Ha)

这两个正则表达式也匹配同样的模式：

(Ha){3,5}
((Ha)(Ha)(Ha))|((Ha)(Ha)(Ha)(Ha))|((Ha)(Ha)(Ha)(Ha)(Ha))

在交互式环境中输入以下代码：

>>> haRegex = re.compile(r'(Ha){3}')
>>> mo1 = haRegex.search('HaHaHa')
>>> mo1.group()
'HaHaHa'

>>> mo2 = haRegex.search('Ha')
>>> mo2 == None
True

这里，(Ha){3}匹配'HaHaHa'，但不匹配'Ha'。因为它不匹配'Ha'，所以search()返回None。

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

列表为空，暂无数据