- 一个 Python 的数据分析库
- 关于 Pandas
- 获取 Pandas
- v0.25.0 版本特性(2019年7月18日)
- 安装
- 快速入门
- Pandas 用户指南目录
- IO工具(文本,CSV,HDF5,…)
- 索引和数据选择器
- 多层级索引和高级索引
- Merge, join, and concatenate
- Reshaping and pivot tables
- Pandas 处理文本字符串
- Working with missing data
- Categorical data
- Nullable 整型数据类型
- Visualization
- Computational tools
- Group By: split-apply-combine
- 时间序列与日期用法
- 时间差
- Styling
- Options and settings
- Enhancing performance
- Sparse data structures
- Frequently Asked Questions (FAQ)
- 烹饪指南
- Pandas 生态圈
- API 参考手册
- 开发者文档
- 发布日志
一个 Python 的数据分析库
Pandas
是一个开源的,BSD许可的库,为Pythonopen in new window编程语言提供高性能,易于使用的数据结构和数据分析工具。
Pandas
是NumFOCUSopen in new window赞助的项目。这将有助于确保Pandas成为世界级开源项目的成功,并有可能捐赠open in new window给该项目。
v0.25.0 (发布于:2019年7月18日)
这是从0.24.2开始的主要版本,包括大量API更改、新功能、增强功能和性能改进以及大量错误修复。
亮点包括:
- 不再支持 Python 2.x
- 重新标记的Groupby聚合open in new window
- 更好的多索引repropen in new window
- 针对Series和DataFrame的更好的截断repropen in new window
- Series.explode将类似列表的值拆分为行MultiIndexesopen in new window
该版本可以使用conda-forge或默认频道的conda进行安装:
$ conda install pandas
或者通过 PyPI:
python3 -m pip install --upgrade pandas
请参阅 v0.25.0版本特性 以获取全部更新情况。
v0.24.2(发布于:2019年3月14日)
这是0.24.x系列中的一个小错误修复版本,包括一些回归修复,错误修复和性能改进。 我们建议所有用户升级到此版本。
该版本可以使用conda-forge或默认频道的conda进行安装:
$ conda install Pandas
或者通过 PyPI:
$ python3 -m pip install --upgrade Pandas
请参阅 历代特性open in new window 以获取所有更新日志。
最好的安装方式
获得 Pandas 的最佳方式是通过 condaopen in new window
$ conda install Pandas
在Windows、Linux和MacOS上,所有受支持的python版本open in new window都可以使用包。
pands 也被上传到PyPIopen in new window中,并且可以通过以下方式安装:
$ pip install Pandas
快速了解
Wes McKinneyopen in new window 在 Vimeoopen in new window 上的 10分钟 Pandas 之旅open in new window 视频教程
Pandas解决了什么问题?
Python在数据处理和准备方面一直做得很好,但在数据分析和建模方面就没那么好了。Pandas帮助填补了这一空白,使您能够在Python中执行整个数据分析工作流程,而不必切换到更特定于领域的语言,如R。
与出色的 IPythonopen in new window 工具包和其他库相结合,Python中用于进行数据分析的环境在性能、生产率和协作能力方面都是卓越的。
Pandas没有在线性和面板回归之外实现重要的建模功能; 为此,请查看 statsmodelsopen in new window 和scikit-learnopen in new window。为了使Python成为一流的统计建模环境,仍然需要做更多的工作,但我们正朝着这个目标迈进。
我们的用户有什么要说的?
- Roni Israelov(博士,AQR资本管理open in new window的组合投资经理):Pandas让我们更专注于研究而不是编程。我们发现 Pandas 易于学习,易于使用且易于维护。最重要的是,它提高了我们的生产力。
- David Himrod(appNexusopen in new window的优化分析总监):Pandas 是一种完美的工具,可以在快速迭代的特殊分析和产品质量代码之间架起一座桥梁。如果你想在一个由工程师、数学家和分析师组成的多学科组织中使用一种工具,那就别再看了。
- Olivier Pomel(Datadogopen in new window的CEO):我们使用Pandas处理生产服务器上的时间序列数据。其API的简单性和优雅性以及高容量数据集的高性能使其成为我们的完美选择。
Pandas库的亮点
- 一个快速、高效的DataFrame对象,用于数据操作和综合索引;
- 用于在内存数据结构和不同格式之间读写数据的工具:CSV和文本文件、Microsoft Excel、SQL数据库和快速HDF 5格式;
- 智能数据对齐和丢失数据的综合处理:在计算中获得基于标签的自动对齐,并轻松地将凌乱的数据操作为有序的形式;
- 数据集的灵活调整和旋转;
- 基于智能标签的切片、花式索引和大型数据集的子集;
- 可以从数据结构中插入和删除列,以实现大小可变;
- 通过在强大的引擎中聚合或转换数据,允许对数据集进行拆分应用组合操作;
- 数据集的高性能合并和连接;
- 层次轴索引提供了在低维数据结构中处理高维数据的直观方法;
- 时间序列-功能:日期范围生成和频率转换、移动窗口统计、移动窗口线性回归、日期转换和滞后。甚至在不丢失数据的情况下创建特定领域的时间偏移和加入时间序列;
- 对性能进行了高度优化,用Cython或C编写了关键代码路径。
- Python与Pandas在广泛的学术和商业领域中使用,包括金融,神经科学,经济学,统计学,广告,网络分析,等等。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论