内容提要
作者简介
技术评审者简介
致谢
译者序会编程的人不一样
前言
本书的读者对象
编码规范
什么是编程
本书简介
下载和安装 Python
启动 IDLE
如何寻求帮助
聪明地提出编程问题
小结
第一部分 Python 编程基础
第1章 Python 基础
- 1.1 在交互式环境中输入表达式
- 1.2 整型、浮点型和字符串数据类型
- 1.3 字符串连接和复制
- 1.4 在变量中保存值
- 1.5 第一个程序
- 1.6 程序剖析
- 1.7 小结
- 1.8 习题
第2章控制流
- 2.1 布尔值
- 2.2 比较操作符
- 2.3 布尔操作符
- 2.4 混合布尔和比较操作符
- 2.5 控制流的元素
- 2.6 程序执行
- 2.7 控制流语句
- 2.8 导入模块
- 2.9 用 sys.exit() 提前结束程序
- 2.10 小结
- 2.11 习题
第3章函数
- 3.1 def 语句和参数
- 3.2 返回值和 return 语句
- 3.3 None 值
- 3.4 关键字参数和 print()
- 3.5 局部和全局作用域
- 3.6 global 语句
- 3.7 异常处理
- 3.8 一个小程序：猜数字
- 3.9 小结
- 3.10 习题
- 3.11 实践项目
第4章列表
- 4.1 列表数据类型
- 4.2 使用列表
- 4.3 增强的赋值操作
- 4.4 方法
- 4.5 例子程序：神奇8球和列表
- 4.6 类似列表的类型：字符串和元组
- 4.7 引用
- 4.8 小结
- 4.9 习题
- 4.10 实践项目
第5章字典和结构化数据
- 5.1 字典数据类型
- 5.2 漂亮打印
- 5.3 使用数据结构对真实世界建模
- 5.4 小结
- 5.5 习题
- 5.6 实践项目
第6章字符串操作
- 6.1 处理字符串
- 6.2 有用的字符串方法
- 6.3 项目：口令保管箱
- 6.4 项目：在 Wiki 标记中添加无序列表
- 6.5 小结
- 6.6 习题
- 6.7 实践项目
第二部分自动化任务
第7章模式匹配与正则表达式
- 7.1 不用正则表达式来查找文本模式
- 7.2 用正则表达式查找文本模式
- 7.3 用正则表达式匹配更多模式
- 7.4 贪心和非贪心匹配
- 7.5 findall() 方法
- 7.6 字符分类
- 7.7 建立自己的字符分类
- 7.8 插入字符和美元字符
- 7.9 通配字符
- 7.10 正则表达式符号复习
- 7.11 不区分大小写的匹配
- 7.12 用sub()方法替换字符串
- 7.13 管理复杂的正则表达式
- 7.14 组合使用 re.IGNOREC ASE、re.DOTALL 和 re.VERBOSE
- 7.15 项目：电话号码和 E-mail 地址提取程序
- 7.16 小结
- 7.17 习题
- 7.18 实践项目
第8章读写文件
- 8.1 文件与文件路径
- 8.2 文件读写过程
- 8.3 用 shelve 模块保存变量
- 8.4 用 pprint.pformat() 函数保存变量
- 8.5 项目：生成随机的测验试卷文件
- 8.6 项目：多重剪贴板
- 8.7 小结
- 8.8 习题
- 8.9 实践项目
第9章组织文件
- 9.1 shutil 模块
- 9.2 遍历目录树
- 9.3 用 zipfile 模块压缩文件
- 9.4 项目：将带有美国风格日期的文件改名为欧洲风格日期
- 9.5 项目：将一个文件夹备份到一个ZIP文件
- 9.6 小结
- 9.7 习题
- 9.8 实践项目
第10章调试
- 10.1 抛出异常
- 10.2 取得反向跟踪的字符串
- 10.3 断言
- 10.4 日志
- 10.5 IDLE的调试器
- 10.6 小结
- 10.7 习题
- 10.8 实践项目
第11章从 Web 抓取信息
- 11.1 项目：利用 webbrowser 模块的 mapIt.py
- 11.2 用 requests 模块从 Web 下载文件
- 11.3 将下载的文件保存到硬盘
- 11.4 HTML
- 11.5 用 BeautifulSoup 模块解析 HTML
- 11.6 项目：I’m Feeling Lucky Google 查找
- 11.7 项目：下载所有 XKCD 漫画
- 11.8 用 selenium 模块控制浏览器
- 11.9 小结
- 11.10 习题
- 11.11 实践项目
第12章处理 Excel 电子表格
- 12.1 Excel 文档
- 12.2 安装 openpyxl 模块
- 12.3 读取 Excel 文档
- 12.4 项目：从电子表格中读取数据
- 12.5 写入 Excel 文档
- 12.6 项目：更新一个电子表格
- 12.7 设置单元格的字体风格
- 12.8 Font 对象
- 12.9 公式
- 12.10 调整行和列
- 12.11 小结
- 12.12 习题
- 12.13 实践项目
第13章处理 PDF 和 Word 文档
- 13.1 PDF 文档
- 13.2 项目：从多个 PDF 中合并选择的页面
- 13.3 Word 文档
- 13.4 小结
- 13.5 习题
- 13.6 实践项目
第14章处理 CSV 文件和 JSON 数据
- 14.1 csv 模块
- 14.2 项目：从 CSV 文件中删除表头
- 14.3 JSON 和 API
- 14.4 json 模块
- 14.5 项目：取得当前的天气数据
- 14.6 小结
- 14.7 习题
- 14.8 实践项目
第15章保持时间、计划任务和启动程序
- 15.1 time 模块
- 15.2 数字四舍五入
- 15.3 项目：超级秒表
- 15.4 datetime 模块
- 15.5 回顾 Python 的时间函数
- 15.6 多线程
- 15.7 项目：多线程 XKCD 下载程序
- 15.8 从 Python 启动其他程序
- 15.9 项目：简单的倒计时程序
- 15.10 小结
- 15.11 习题
- 15.12 实践项目
第16章发送电子邮件和短信
- 16.1 SMTP
- 16.2 发送电子邮件
- 16.3 IMAP
- 16.4 用 IMAP 获取和删除电子邮件
- 16.5 项目：向会员发送会费提醒电子邮件
- 16.6 用 Twilio 发送短信
- 16.7 项目：只给我发短信模块
- 16.8 小结
- 16.9 习题
- 16.10 实践项目
第17章操作图像
- 17.1 计算机图像基础
- 17.2 用 Pillow 操作图像
- 17.3 项目：添加徽标
- 17.4 在图像上绘画
- 17.5 小结
- 17.6 习题
- 17.7 实践项目
第18章用 GUI 自动化控制键盘和鼠标
- 18.1 安装 pyautogui 模块
- 18.2 走对路
- 18.3 控制鼠标移动
- 18.4 项目：现在鼠标在哪里？
- 18.5 控制鼠标交互
- 18.6 处理屏幕
- 18.7 项目：扩展 mouseNow 程序
- 18.8 图像识别
- 18.9 控制键盘
- 18.10 复习 PyAutoGUI 的函数
- 18.11 项目：自动填表程序
- 18.12 小结
- 18.13 习题
- 18.14 实践项目
附录A 安装第三方模块
- A.1 pip 工具
- A.2 安装第三方模块
附录B 运行程序
- B.1 第一行
- B.2 在 Windows 上运行 Python 程序
- B.3 在 OS X 和 Linux 上运行 Python 程序
- B.4 运行 Python 程序时禁用断言
附录C 习题答案
- 第1章
- 第2章
- 第3章
- 第4章
- 第5章
- 第6章
- 第7章
- 第8章
- 第9章
- 第10章
- 第11章
- 第12章
- 第13章
- 第14章
- 第15章
- 第16章
- 第17章
- 第18章

文章来源于网络收集而来，版权归原创者所有，如有侵权请及时联系！

7.15 项目：电话号码和 E-mail 地址提取程序

发布于 2024-01-22 21:44:06 字数 4979 浏览 0 评论 0 收藏 0

假设你有一个无聊的任务，要在一篇长的网页或文章中，找出所有电话号码和邮件地址。如果手动翻页，可能需要查找很长时间。如果有一个程序，可以在剪贴板的文本中查找电话号码和E-mail地址，那你就只要按一下Ctrl-A选择所有文本，按下Ctrl-C将它复制到剪贴板，然后运行你的程序。它会用找到的电话号码和E-mail地址，替换掉剪贴板中的文本。

当你开始接手一个新项目时，很容易想要直接开始写代码。但更多的时候，最好是后退一步，考虑更大的图景。我建议先草拟高层次的计划，弄清楚程序需要做什么。暂时不要思考真正的代码，稍后再来考虑。现在，先关注大框架。

例如，你的电话号码和E-mail地址提取程序需要完成以下任务：

· 从剪贴板取得文本。

· 找出文本中所有的电话号码和E-mail地址。

· 将它们粘贴到剪贴板。

现在你可以开始思考，如何用代码来完成工作。代码需要做下面的事情：

· 使用pyperclip模块复制和粘贴字符串。

· 创建两个正则表达式，一个匹配电话号码，另一个匹配E-mail地址。

· 对两个正则表达式，找到所有的匹配，而不只是第一次匹配。

· 将匹配的字符串整理好格式，放在一个字符串中，用于粘贴。

· 如果文本中没有找到匹配，显示某种消息。

这个列表就像项目的路线图。在编写代码时，可以独立地关注其中的每一步。每一步都很好管理。它的表达方式让你知道在Python中如何去做。

第1步：为电话号码创建一个正则表达式

首先，你需要创建一个正则表达式来查找电话号码。创建一个新文件，输入以下代码，保存为phoneAndEmail.py：

#! python3
# phoneAndEmail.py - Finds phone numbers and email addresses on the clipboard.

import pyperclip, re

phoneRegex = re.compile(r'''(
    (\d{3}|\(\d{3}\))?             # area code
    (\s|-|\.)?                     # separator
    (\d{3})                        # first 3 digits
    (\s|-|\.)                      # separator
    (\d{4})                        # last 4 digits
    (\s*(ext|x|ext.)\s*(\d{2,5}))?     # extension
    )''', re.VERBOSE)

# TODO: Create email regex.

# TODO: Find matches in clipboard text.

# TODO: Copy results to the clipboard.

TODO注释仅仅是程序的框架。当编写真正的代码时，它们会被替换掉。

电话号码从一个“可选的”区号开始，所以区号分组跟着一个问号。因为区号可能只是3个数字（即\d{3}），或括号中的3个数字（即(\d{3})），所以应该用管道符号连接这两部分。可以对这部分多行字符串加上正则表达式注释# Area code，帮助你记忆(\d{3}|(\d{3}))?要匹配的是什么。

电话号码分割字符可以是空格（\s）、短横（-）或句点（.），所以这些部分也应该用管道连接。这个正则表达式接下来的几部分很简单：3个数字，接下来是另一个分割符，接下来是4个数字。最后的部分是可选的分机号，包括任意数目的空格，接着ext、x或ext.，再接着2到5位数字。

第2步：为E-mail地址创建一个正则表达式

还需要一个正则表达式来匹配E-mail地址。让你的程序看起来像这样：

　#! python3
　# phoneAndEmail.py - Finds phone numbers and email addresses on the clipboard.
　import pyperclip, re

　phoneRegex = re.compile(r'''(
　--_snip_--

　# Create email regex.
　emailRegex = re.compile(r'''(
❶     [a-zA-Z0-9._%+-]+         # username
❷     @                     # @ symbol
❸     [a-zA-Z0-9.-]+         # domain name
　    (\.[a-zA-Z]{2,4})     # dot-something
　    )''', re.VERBOSE)
　
　# TODO: Find matches in clipboard text.

　# TODO: Copy results to the clipboard.

E-mail地址的用户名部分❶是一个或多个字符，字符可以包括：小写和大写字母、数字、句点、下划线、百分号、加号或短横。可以将所有这些放入一个字符分类：[a-zA-Z0-9._%+-]。

域名和用户名用@符号分割❷，域名❸允许的字符分类要少一些，只允许字母、数字、句点和短横：[a-zA-Z0-9.-]。最后是“dot-com”部分（技术上称为“顶级域名”），它实际上可以是“dot-anything”。它有2到4个字符。

E-mail地址的格式有许多奇怪的规则。这个正则表达式不会匹配所有可能的、有效的E-mail地址，但它会匹配你遇到的大多数典型的电子邮件地址。

第3步：在剪贴板文本中找到所有匹配

既然已经指定了电话号码和电子邮件地址的正则表达式，就可以让 Python的re模块做辛苦的工作，查找剪贴板文本中所有的匹配。pyperclip.paste()函数将取得一个字符串，内容是剪贴板上的文本，findall()正则表达式方法将返回一个元组的列表。

让你的程序看起来像这样：

　#! python3
　# phoneAndEmail.py - Finds phone numbers and email addresses on the clipboard.

　import pyperclip, re

　phoneRegex = re.compile(r＇＇＇(
　--_snip_--

　# Find matches in clipboard text.
　text = str(pyperclip.paste())
❶ matches = []
❷ for groups in phoneRegex.findall(text):
　    phoneNum = '-'.join([groups[1], groups[3], groups[5]])
　    if groups[8] != '':
　        phoneNum += ' x' + groups[8]
　    matches.append(phoneNum)
❸ for groups in emailRegex.findall(text):
　    matches.append(groups[0])
　
　# TODO: Copy results to the clipboard.

每个匹配对应一个元组，每个元组包含正则表达式中每个分组的字符串。回忆一下，分组0匹配整个正则表达式，所以在元组下标0处的分组，就是你感兴趣的内容。

在❶处可以看到，你将所有的匹配保存在名为matches的列表变量中。它从一个空列表开始，经过几个for循环。对于E-mail地址，你将每次匹配的分组0添加到列表中❸。对于匹配的电话号码，你不想只是添加分组0。虽然程序可以“检测”几种不同形式的电话号码，你希望添加的电话号码是唯一的、标准的格式。phoneNum变量包含一个字符串，它由匹配文本的分组1、3、5和8构成❷。（这些分组是区号、前3个数字、后4个数字和分机号。）

第4步：所有匹配连接成一个字符串，复制到剪贴板

现在，E-mail地址和电话号码已经作为字符串列表放在matches中，你希望将它们复制到剪贴板。pyperclip.copy()函数只接收一个字符串值，而不是字符串的列表，所以你在matches上调用join()方法。

为了更容易看到程序在工作，让我们将所有找到的匹配都输出在终端上。如果没有找到电话号码或E-mail地址，程序应该告诉用户。

让你的程序看起来像这样：

#! python3
# phoneAndEmail.py - Finds phone numbers and email addresses on the clipboard.

--_snip_--
for groups in emailRegex.findall(text):
matches.append(groups[0])

# Copy results to the clipboard.
if len(matches) > 0:
    pyperclip.copy('\n'.join(matches))
    print('Copied to clipboard:')
    print('\n'.join(matches))
else:
    print('No phone numbers or email addresses found.')

第5步：运行程序

作为一个例子，打开你的Web浏览器，访问No Starch Press的联系页面http://www.nostarch.com/contactus.htm。按下Ctrl-A选择该页的所有文本，按下Ctrl-C将它复制到剪贴板。运行这个程序，输出看起来像这样：

Copied to clipboard:
800-420-7240
415-863-9900
415-863-9950
info@nostarch.com
media@nostarch.com
academic@nostarch.com
help@nostarch.com

第6步：类似程序的构想

识别文本的模式（并且可能用sub()方法替换它们）有许多不同潜在的应用。

· 寻找网站的URL，它们以http://或https://开始。

· 整理不同日期格式的日期（诸如3/14/2015、03-14-2015和2015/3/14），用唯一的标准格式替代。

· 删除敏感的信息，诸如社会保险号或信用卡号。

· 寻找常见打字错误，诸如单词间的多个空格、不小心重复的单词，或者句子末尾处多个感叹号。它们很烦人！！

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

列表为空，暂无数据