- 内容提要
- 前言
- 作者简介
- 封面简介
- 第1章 理解高性能 Python
- 第2章 通过性能分析找到瓶颈
- 2.1 高效地分析性能
- 2.2 Julia 集合的介绍
- 2.3 计算完整的 Julia 集合
- 2.4 计时的简单方法——打印和修饰
- 2.5 用 UNIX 的 time 命令进行简单的计时
- 2.6 使用 cProfile 模块
- 2.7 用 runsnakerun 对 cProfile 的输出进行可视化
- 2.8 用 line_profiler 进行逐行分析
- 2.9 用 memory_profiler 诊断内存的用量
- 2.10 用 heapy 调查堆上的对象
- 2.11 用 dowser 实时画出变量的实例
- 2.12 用 dis 模块检查 CPython 字节码
- 2.13 在优化期间进行单元测试保持代码的正确性
- 2.14 确保性能分析成功的策略
- 2.15 小结
- 第3章 列表和元组
- 第4章 字典和集合
- 第5章 迭代器和生成器
- 第6章 矩阵和矢量计算
- 第7章 编译成 C
- 第8章 并发
- 第9章 multiprocessing 模块
- 第10章 集群和工作队列
- 第11章 使用更少的 RAM
- 第12章 现场教训
第11章 使用更少的 RAM
读完本章之后你将能够回答下列问题
为什么我应该使用更少的RAM?
为什么numpy和array对存储大量数字而言更有利?
怎样把许多文本高效地存储进RAM?
我该如何能仅仅使用一个字节来(近似地)计数到1e77?
什么是布隆过滤?为什么我可能会需要它们?
我们很少会思考我们正在使用多少RAM,一直到把它用完为止。如果你在扩展代码时用完了内存,它就会成为一个突如其来的阻碍者。把更多的东西纳入一台机器的RAM意味着更少的机器要管理,并且给你一条途径来为更大的项目规划容量。了解为什么RAM被吃光了而且考虑更有效的方式来使用这个稀缺资源将有助于你处理扩展性的问题。
另一种节约RAM的途径就是使用容器来利用你的数据特性进行压缩。在本章中,我们将看看tries树(有序的树数据结构)和DAWG,后者能够把一个1.1GB的字符串集压缩到只有 254MB,而几乎不改变性能。第三种途径就是用空间来和准确性做交换。对于这种途径,我们将看看近似计数和近似集合成员,相比它们所对应的精确算法大大减少了RAM的使用。
对内存使用要考虑的一点就是“数据有质量”的观念。数据越多,移动起来就越慢。如果你能够吝啬于使用内存,你的数据将可能消耗得更快,因为它在总线上移动得更快,而且更多的数据将被纳入有限的缓存中。如果你需要把它存入离线存储中(例如,一个硬盘驱动或者一个远程的数据集群),那么它会以慢得多的速度来传输进你的机器中。设法选择合适的数据结构,这样你的所有数据都能够纳入一台机器中。
对Python对象所使用的RAM量做统计棘手得令人吃惊。我们不必知道对象在幕后是如何被表示的,如果我们请求操作系统所使用的字节数,它将告诉我们分配给进程的总量。在这两种情况下,我们都不能精确地查看每个单独的Python对象占用的内存是怎样加入总量中的。
因为一些对象和库无法报告它们内部所分配的所有字节(或者它们包装了完全没有报告自己的内存分配的外部库),这应当是一种最佳猜测的情况。在本章中所探索的方法能够帮助我们决定最好的方式来表示我们的数据,从而整体上使用了更少的RAM。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论