返回介绍

第11章 使用更少的 RAM

发布于 2024-01-25 21:44:08 字数 967 浏览 0 评论 0 收藏 0

读完本章之后你将能够回答下列问题

为什么我应该使用更少的RAM?

为什么numpy和array对存储大量数字而言更有利?

怎样把许多文本高效地存储进RAM?

我该如何能仅仅使用一个字节来(近似地)计数到1e77?

什么是布隆过滤?为什么我可能会需要它们?

我们很少会思考我们正在使用多少RAM,一直到把它用完为止。如果你在扩展代码时用完了内存,它就会成为一个突如其来的阻碍者。把更多的东西纳入一台机器的RAM意味着更少的机器要管理,并且给你一条途径来为更大的项目规划容量。了解为什么RAM被吃光了而且考虑更有效的方式来使用这个稀缺资源将有助于你处理扩展性的问题。

另一种节约RAM的途径就是使用容器来利用你的数据特性进行压缩。在本章中,我们将看看tries树(有序的树数据结构)和DAWG,后者能够把一个1.1GB的字符串集压缩到只有 254MB,而几乎不改变性能。第三种途径就是用空间来和准确性做交换。对于这种途径,我们将看看近似计数和近似集合成员,相比它们所对应的精确算法大大减少了RAM的使用。

对内存使用要考虑的一点就是“数据有质量”的观念。数据越多,移动起来就越慢。如果你能够吝啬于使用内存,你的数据将可能消耗得更快,因为它在总线上移动得更快,而且更多的数据将被纳入有限的缓存中。如果你需要把它存入离线存储中(例如,一个硬盘驱动或者一个远程的数据集群),那么它会以慢得多的速度来传输进你的机器中。设法选择合适的数据结构,这样你的所有数据都能够纳入一台机器中。

对Python对象所使用的RAM量做统计棘手得令人吃惊。我们不必知道对象在幕后是如何被表示的,如果我们请求操作系统所使用的字节数,它将告诉我们分配给进程的总量。在这两种情况下,我们都不能精确地查看每个单独的Python对象占用的内存是怎样加入总量中的。

因为一些对象和库无法报告它们内部所分配的所有字节(或者它们包装了完全没有报告自己的内存分配的外部库),这应当是一种最佳猜测的情况。在本章中所探索的方法能够帮助我们决定最好的方式来表示我们的数据,从而整体上使用了更少的RAM。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文