返回介绍

11.6 小结

发布于 2024-01-27 21:43:11 字数 1537 浏览 0 评论 0 收藏 0

你已经学习了许多关于网页抓取的知识。在编写不同格式的抓取器时,你应该感到很自信。你已清楚怎样编写 jQuery、CSS 和 XPath 选择器,以及如何轻松地使用浏览器和 Python 匹配内容。

在使用开发者工具分析一个网页是如何构建的时候,你同样会感到很自在。你已经磨练了 CSS 和 JavaScript 技能,学习了如何编写一个合法的 XPath 来与 DOM 树直接交互。

表 11-4 列出了本章介绍的新概念和库。

表11-4:新的Python和编程概念与库

概念/库

目的

robots.txt 文件使用、版权和商标研究

通过站点的 robots.txt 文件、服务条款或页面上发布的其他法律声明,你可以确定是否可以合法和符合道德地抓取站点内容

开发者工具使用:检视 /DOM

用于研究内容在页面上的位置,以及如何以最佳方式使用页面层次和 CSS 规则来找到它

开发者工具使用:网络

用于研究为了完全加载页面发起了哪些调用。这其中的一些请求可能指向 API,或其他资源,以便你轻松获取数据。了解页面如何加载可以帮助你确定是使用一个简单的抓取器还是一个基于浏览器的更复杂的抓取器

开发者工具使用:JavaScript 控制台

用于研究如何通过其 CSS 或 XPath 选择器同页面上的元素交互

urllib 和 urllib2 标准库

帮助你创建简单的 HTTP 请求来访问一个网页,并通过 Python 标准库获取内容

requests 库

帮助你更容易地创建复杂的页面请求,特别是那些需要额外的头部、复杂的 POST 数据或请求认证

BeautifulSoup 库

让你轻松读取和解析页面。对于严重破损的页面和初始的网页抓取很有用

lxml 库

让你更轻松地使用类似 XPath 语法的 DOM 层次结构和工具解析页面

XPath 使用

使你能够使用正则表达式和 XPath 语法编写模式和匹配,快速地找到和解析页面内容

在下一章,你会学习更多从网页抓取数据的方式。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文