- 内容提要
- 前言
- 作者简介
- 封面简介
- 第1章 理解高性能 Python
- 第2章 通过性能分析找到瓶颈
- 2.1 高效地分析性能
- 2.2 Julia 集合的介绍
- 2.3 计算完整的 Julia 集合
- 2.4 计时的简单方法——打印和修饰
- 2.5 用 UNIX 的 time 命令进行简单的计时
- 2.6 使用 cProfile 模块
- 2.7 用 runsnakerun 对 cProfile 的输出进行可视化
- 2.8 用 line_profiler 进行逐行分析
- 2.9 用 memory_profiler 诊断内存的用量
- 2.10 用 heapy 调查堆上的对象
- 2.11 用 dowser 实时画出变量的实例
- 2.12 用 dis 模块检查 CPython 字节码
- 2.13 在优化期间进行单元测试保持代码的正确性
- 2.14 确保性能分析成功的策略
- 2.15 小结
- 第3章 列表和元组
- 第4章 字典和集合
- 第5章 迭代器和生成器
- 第6章 矩阵和矢量计算
- 第7章 编译成 C
- 第8章 并发
- 第9章 multiprocessing 模块
- 第10章 集群和工作队列
- 第11章 使用更少的 RAM
- 第12章 现场教训
7.1 可能获得哪种类型的速度提升
如果你的问题求助于编译方式,那么很有可能得到至少一个数量级大小的速度提升。这里,我们会看到在单核上,以及在使用OpenMP的多核上,有各种各样的方法来达成一到两个数量级大小的提速。在编译后趋于更快运行的Python代码有可能是数学方面的,并且可能有许多循环在重复着多次相同的运算。在这些循环中,有可能会生成许多临时对象。
调用外部库(例如,正则表达式、字符串操作、调用数据库)的代码在编译后不可能表现出任何速度提升。I/O密集型的程序同样不可能表现出明显的速度提升。
类似地,如果你的Python代码集中于调用向量化的numpy例程,那么在编译后就不大可能运行得更快——只有当被编译的代码主要是Python(并且可能主要是循环)时才会运行得更快。我们在第6章会看到numpy运算,编译不会真正有助于提速,因为没有许多中间对象。
总体而言,编译后的代码不可能比手工精心编写的C例程运行得更快,但也不可能比它慢很多。从你的Python代码生成的C代码很有可能和手写的C例程跑得一样快,除非C程序员掌握了特定的知识和方法在目标机器架构上去调制C代码。
对于集中于数学方面的代码来说,一个手写的Fortran例程有可能会超越等价的C例程,但是这也有可能需要具备专家级别的知识水准。总体而言,一个编译后的结果(可能使用了Cython、Pythran或Shed Skin)将会如大多数程序员所需要的那样接近于手写C的结果。
当你剖析和工作于你的算法时,请把图7-1记在脑中。通过少量剖析去理解你的代码的工作应该能够让你在算法层面做出更明智的选择。在这之后,致力于编译器使用上的一些工作应该让你获得额外的速度提升。你还可能会一直微调你的算法,但是不要惊讶于见到你那部分不断增加的工作量只是换来了越来越小的改进。要知道多余的努力可能是无效的。
图7-1 一些花在剖析和编译上的工作会带来丰厚回报,但是继续努力,收益就趋向于不断减少
如果你正在处理Python代码和内置的库,不涉及numpy,那么Cython、Shed Skin和PyPy是你的主要选择。如果你正在用numpy工作,那么Cython、Numba和Pythran是正确的选择。这些工具都支持Python2.7,一些支持Python3.2+。
下面一些例子仅需要懂一点C编译器和C代码。如果你缺乏这方面知识,你应该在深入探索之前学习一点C语言和编译一个可以工作的C程序。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论