- 本书赞誉
- 前言
- 目标读者
- 不适合阅读本书的读者
- 本书结构
- 什么是数据处理
- 遇到困难怎么办
- 排版约定
- 使用代码示例
- 致谢
- 第 1 章 Python 简介
- 第 2 章 Python 基础
- 第 3 章 供机器读取的数据
- 第 4 章 处理 Excel 文件
- 第 5 章 处理 PDF 文件 以及用 Python 解决问题
- 第 6 章 数据获取与存储
- 第 7 章 数据清洗:研究、匹配与格式化
- 第 8 章 数据清洗:标准化和脚本化
- 第 9 章 数据探索和分析
- 第 10 章 展示数据
- 第 11 章 网页抓取:获取并存储网络数据
- 第 12 章 高级网页抓取:屏幕抓取器与爬虫
- 第 13 章 应用编程接口
- 第 14 章 自动化和规模化
- 第 15 章 结论
- 附录 A 编程语言对比
- 附录 B 初学者的 Python 学习资源
- 附录 C 学习命令行
- 附录 D 高级 Python 设置
- 附录 E Python 陷阱
- 附录 F IPython 指南
- 附录 G 使用亚马逊网络服务
- 关于作者
- 关于封面
11.6 小结
你已经学习了许多关于网页抓取的知识。在编写不同格式的抓取器时,你应该感到很自信。你已清楚怎样编写 jQuery、CSS 和 XPath 选择器,以及如何轻松地使用浏览器和 Python 匹配内容。
在使用开发者工具分析一个网页是如何构建的时候,你同样会感到很自在。你已经磨练了 CSS 和 JavaScript 技能,学习了如何编写一个合法的 XPath 来与 DOM 树直接交互。
表 11-4 列出了本章介绍的新概念和库。
表11-4:新的Python和编程概念与库
概念/库 | 目的 |
robots.txt 文件使用、版权和商标研究 | 通过站点的 robots.txt 文件、服务条款或页面上发布的其他法律声明,你可以确定是否可以合法和符合道德地抓取站点内容 |
开发者工具使用:检视 /DOM | 用于研究内容在页面上的位置,以及如何以最佳方式使用页面层次和 CSS 规则来找到它 |
开发者工具使用:网络 | 用于研究为了完全加载页面发起了哪些调用。这其中的一些请求可能指向 API,或其他资源,以便你轻松获取数据。了解页面如何加载可以帮助你确定是使用一个简单的抓取器还是一个基于浏览器的更复杂的抓取器 |
开发者工具使用:JavaScript 控制台 | 用于研究如何通过其 CSS 或 XPath 选择器同页面上的元素交互 |
urllib 和 urllib2 标准库 | 帮助你创建简单的 HTTP 请求来访问一个网页,并通过 Python 标准库获取内容 |
requests 库 | 帮助你更容易地创建复杂的页面请求,特别是那些需要额外的头部、复杂的 POST 数据或请求认证 |
BeautifulSoup 库 | 让你轻松读取和解析页面。对于严重破损的页面和初始的网页抓取很有用 |
lxml 库 | 让你更轻松地使用类似 XPath 语法的 DOM 层次结构和工具解析页面 |
XPath 使用 | 使你能够使用正则表达式和 XPath 语法编写模式和匹配,快速地找到和解析页面内容 |
在下一章,你会学习更多从网页抓取数据的方式。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论