内容来源于网络收集而来，版权归原创者所有，如有侵权请及时联系！

Python 爬虫实战与机器学习应用 PDF 文档

发布于 2021-09-29 09:15:18 字数 7331 浏览 1659 评论 0

随着互联网的不断发展，互联网上的数据越来越多和丰富，人们需要获取的信息也越来越多。昔日依靠人工进行数据信息采集的方式在海量的互联网数据面前显得低效和落后。伴随着不断攀
升的数据获取的需求，依赖于编程世界各种语言的发展，依靠计算机编程语言的不断进步，编写网络数据爬虫日渐变得流行和重要。

第 1 章、开始之前 5
1.1、这本书说了什么5
1.2、这本书适合谁..6
1.3、这本书的代码运行环境.6
1.5、读者应当具备以下基础知识：6
1.6、其他事项7
第 2 章、工具安装与准备.8
2.1、基础工具的安装8
2.1.1、Python 环境..8
2.1.2、Python 第三方模块..8
2.1.3、本书所涉及的部分第三方模块....12
2.1.4、Python 虚拟环境....12
2.2、总结13
第 3 章、爬虫的基石——HTTP 简析 14
3.1、HTTP 与 TCP/IP....14
3.1.1、TCP/IP 模型....14
3.1.2、HTTP 协议.15
HTTP 的运作模式15
HTTP 的消息结构16
3.1.3、HTTP 的请求方法.17
3.1.4、HTTP 的头域..18
3.1.5、HTTP 的状态码21
3.2、总结22
第 4 章、了解页面结构：HTML、XML、JSON....23
4.1、HTML..23
4.1.1、网页结构....23
4.1.2、网页标签与 HTML 元素..24
4.1.3、标签属性....25
4.2、XML.... 26
4.2.1、什么是 XML... 26
4.2.2、XML 与 HTML 的对比....26
4.2.3、XML 的结构... 26
XML 声明 27
XML 根元素.... 27
XML 自定义元素标签 27
4.3、JSON....27
4.4、总结28
第 5 章、使用 Python 进行 HTTP 请求和 HTML 解析.29
5.1、使用 Python 发送 HTTP 请求.29
5.1.1、使用 Python 内置模块.29
5.1.2、优秀的第三方模块——requests...31
5.2、使用 Python 解析 HTML 文档.... 36
5.2.1、使用 BeautifulSoup 解析 HTML...36
理解 DOM 和文档树...37