附录B Python 数据工具箱
Python数据工具箱涵盖从数据源到数据可视化的完整流程中涉及的常用库、函数和外部工具。其中既有Python内置函数和标准库,又有第三方库和工具。这些库可用于文件读写、网络抓取和解析、数据连接、数清洗转换、数据计算和统计分析、图像和视频处理、音频处理、数据挖掘/机器学习/深度学习、数据可视化、交互学习和集成开发以及其他Python协同数据工作工具。
为了区分不同对象的来源和类型,本节将在描述中通过以下方法进行标识:
[Python内置函数]:Python自带的内置函数。函数无需导入,直接使用。例如要计算-3.2的绝对值,直接使用abs函数,方法是abs(-3.2)。
[Python标准库]:Python自带的标准库。Python标准库无需安装,只需要先通过import方法导入便可使用其中的方法。例如导入string模块,然后使用其中的find方法:
import string string.find('abcde','b')
[第三方库]:Python的第三方库。这些库需要先进行安装(部分可能需要配置),具体方法参考1.2.3节,然后通过import方法导入便可使用其中的方法。
[外部工具]:非Python写成的库或包,用于Python数据工作的相关工具。
1.文件读写
文件的读写包括常见的txt、Excel、xml、二进制文件以及其他格式的数据文本,主要用于本地数据的读写。
2.网络抓取和解析
网络抓取和解析用于从互联网中抓取信息,并对HTML对象进行处理,有关xml对象的解析和处理的库在“1.文件读写”中找到。
3.数据库连接
数据库连接可用于连接众多数据库以及访问通用数据库接口,可用于数据库维护、管理和增、删、改、查等日常操作。
4.数据清洗转换
数据清洗转换主用于数据正式应用之前的预处理工作。
5.数据计算和统计分析
数据计算和统计分析主要用于数据探查、计算和初步数据分析等工作。
6.自然语言处理和文本挖掘
自然语言处理和文本挖掘库主要用于以自然语言文本为对象的数据处理和建模。
7.图像和视频处理
图像处理和视频处理主要适用于基于图像的操作、处理、分析和挖掘,如人脸识别、图像识别、目标跟踪、图像理解等。
8.音频处理
音频处理主要适用于基于声音的处理、分析和建模,主要应用于语音识别、语音合成、语义理解等。
9.数据挖掘/机器学习/深度学习
数据挖掘、机器学习和深度学习等是Python进行数据建模和挖掘学习的核心模块。
10.数据可视化
数据可视化主要用于做数据结果展示、数据模型验证、图形交互和探查等方面。
11.交互学习和集成开发
交互学习和集成开发主要用来做Python开发、调试和集成之用,包括Python集成开发环境和IDE。
12.其他Python协同数据工作工具
其他Python协同数据工作工具指除了上述主题以外,其他在数据工作中常用的工具或库。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论