为什么使用 Python
如果你的目的是学习一门编程语言来使数据处理和数据分析任务规模化和自动化,那么 Python 绝对是一个好的选择。Python 的一个显著特点就是使用空白字符和缩进来表示行的结尾和代码分块,这与很多其他语言不同,其他语言使用特殊字符(比如分号和花括号)来达到同样的目的。Python 的这个特点使你一眼就能看出程序的组织方式。
在其他语言中,特殊字符的使用对于编程新手来说是个困扰,原因至少有两个。第一,这使得学习曲线更长并且更加陡峭。当你学习编程时,实质上是在学习一门新的语言,你必须花时间学习这些特殊字符的用法,然后才能有效地使用这门语言。第二,特殊字符使代码难以阅读。这是因为在使用分号和花括号表示代码块的语言中,并不总是使用缩进来标明代码块。如果没有缩进,多个代码块看上去就是乱七八糟的。
Python 使用空白字符和缩进来表示代码分块,而不使用分号和花括号,这样就避免了上述问题。当你阅读 Python 代码时,你的视线会集中在实际的代码行上,而不是代码块的分隔符上,因为代码周围只有空白字符。Python 要求代码块必须缩进,这样你会很容易看出代码块在哪里结束,新的代码块又在哪里开始。而且,Python 社区特别强调代码的可读性,因此已经形成了一种文化,就是一定要书写易于阅读和理解的代码。Python 的这些特点使学习曲线更短并且更加平坦,与其他语言相比,使用 Python 进行数据处理可以更快也更容易上手。
Python 适用于数据处理与分析的另一个显著特点,是其具有大量的标准模块、附加模块以及函数,可以非常方便地完成一般的数据处理与分析操作。内建库和标准库中的模块和函数是 Python 的标准配置,所以只要你下载并安装了 Python,就可以立即使用这些内建的模块和函数。在 Python 标准库页面(https://docs.python.org/3/library)中,你可以找到所有内建模块和标准模块的介绍。Python 附加模块需要单独下载并安装,然后才能使用它们提供的附加功能。你可以在 Python 程序包索引页面(https://pypi.python.org/pypi)详细查看很多附加模块的介绍。
标准库中的模块提供的功能包括读取各种类型的文件(如文本文件、CSV、JSON、HTML、XML 等),处理数值、字符串和日期型数据,使用正则表达式进行模式匹配,解析 CSV 文件,计算基本的统计量,以及向各种类型的输出文件和磁盘写入数据。有用的附加模块太多,无法一一介绍。本书要讨论和使用的附加模块如下所示。
· xlrd 和 xlwt
功能:解析与读写 Microsoft Excel 工作簿。
· mysqlclient/MySQL-python/MySQLdb
功能:连接 MySQL 数据库,在数据库表上运行查询。
· pandas
功能:读取各种类型的文件;管理、筛选和转换数据;聚合数据并计算基本统计量;创建各种类型的统计图表。
· statsmodels
功能:估计各种统计模型,包括线性回归模型、广义线性模型和分类模型。
· scikit-learn
功能:估计机器学习统计模型,包括回归、分类和聚类,以及执行数据处理、维度归约和交叉验证。
如果你是编程新手,并且正在寻找一门可以使数据处理与分析任务自动化和规模化的编程语言,那么 Python 就是理想的选择。Python 对于空白字符和缩进的强调使代码更易于阅读和理解,因而和其他语言相比,它的学习曲线没有那么陡峭。Python 的内建库和附加库可以方便地完成许多一般的数据处理和分析操作,让你可以轻松地一站式完成数据处理与分析任务。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论