返回介绍

第 6 章 使用 series 和 frame

发布于 2024-01-28 22:01:16 字数 830 浏览 0 评论 0 收藏 0

数据科学家往往青睐于表格数据(数组、矢量、矩阵)。表格数据具有很好的形式,可以方便地访问某个元素和某些行或列。超级计算机和许多现代高端个人电脑支持的矢量化算术运算,可以一次性作用在多个甚至所有表格项目上(第24单元给出了这种运算的numpy实现)。但是,numpy无法将数值数据本身与数据属性(比如列名、行名和索引)相绑定。正因为缺乏这样的参照物,使得同时使用多个numpy数组非常困难。

下面让我们进入pandas的世界。

pandas模块的初衷是为了给Python添加series和frames两个抽象的数据结构,它们其实是Python的竞争对手、最早的数据科学语言——R语言的核心。pandas以numpy为基础,对其进行了极大的扩展,并重新实现了部分功能。

pandas的frame本质上是一个“智能”电子表格:具有标签、列(变量)、行(观测记录),以及大量内置操作的表。(series是一个只有一列的frame。)表的数据部分(单元格)以numpy数组的方式实现。许多操作(例如数据变形和聚合,以及通用函数)也与numpy是类似的。通过行和列的标签,可以实现对行和列方便的、直截了当的访问。此外,标记的行和列允许pandas程序员(也就是我们)通过在“垂直”(堆叠)和“水平”(并排)方向上以合并和级联的方式来组合frame。在这个意义上,frame的工作方式很像关系数据库表。(请参阅第4章,回顾关系数据库的内容。)

最后,pandas可以很好地与pyplot集成在一起。pyplot是一个基于Python的绘图和数据可视化系统,具体内容将在第41单元介绍。坦率地讲,pandas具备开展数据科学研究所需要的一切。当然,也需要一些其他工具的配合。

本章通过第31单元对pandas的两个数据容器(Series和DataFrame)的介绍开启pandas的学习之旅。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文