返回介绍

9.8 使用 __slots__ 类属性节省空间

发布于 2024-02-05 21:59:47 字数 3402 浏览 0 评论 0 收藏 0

默认情况下,Python 在各个实例中名为 __dict__ 的字典里存储实例属性。如 3.9.3 节所述,为了使用底层的散列表提升访问速度,字典会消耗大量内存。如果要处理数百万个属性不多的实例,通过 __slots__ 类属性,能节省大量内存,方法是让解释器在元组中存储实例属性,而不用字典。

 继承自超类的 __slots__ 属性没有效果。Python 只会使用各个类中定义的 __slots__ 属性。

定义 __slots__ 的方式是,创建一个类属性,使用 __slots__ 这个名字,并把它的值设为一个字符串构成的可迭代对象,其中各个元素表示各个实例属性。我喜欢使用元组,因为这样定义的 __slots__ 中所含的信息不会变化,如示例 9-11 所示。

示例 9-11 vector2d_v3_slots.py:只在 Vector2d 类中添加了 __slots__ 属性

class Vector2d:
  __slots__ = ('__x', '__y')

  typecode = 'd'

  # 下面是各个方法(因排版需要而省略了)

在类中定义 __slots__ 属性的目的是告诉解释器:“这个类中的所有实例属性都在这儿了!”这样,Python 会在各个实例中使用类似元组的结构存储实例变量,从而避免使用消耗内存的 __dict__ 属性。如果有数百万个实例同时活动,这样做能节省大量内存。

 如果要处理数百万个数值对象,应该使用 NumPy 数组(参见 2.9.3 节)。NumPy 数组能高效使用内存,而且提供了高度优化的数值处理函数,其中很多都一次操作整个数组。我定义 Vector2d 类的目的是讨论特殊方法,因为我不太想随便举些例子。

在示例 9-12 中,我们运行了两个构建列表的脚本,这两个脚本都使用列表推导创建 10 000 000 个 Vector2d 实例。mem_test.py 脚本的命令行参数是一个模块的名字,模块中定义了不同版本的 Vector2d 类。第一次运行使用的是 vector2d_v3.Vector2d 类(在示例 9-7 中定义),第二次运行使用的是定义了 __slots__ 的 vector2d_v3_slots.Vector2d 类。

示例 9-12 mem_test.py 使用指定模块(如 vector2d_v3.py)中定义的 Vector2d 类创建 10 000 000 个实例

$ time python3 mem_test.py vector2d_v3.py
Selected Vector2d type: vector2d_v3.Vector2d
Creating 10,000,000 Vector2d instances
Initial RAM usage:     5,623,808
  Final RAM usage:   1,558,482,944

real  0m16.721s
user  0m15.568s
sys 0m1.149s
$ time python3 mem_test.py vector2d_v3_slots.py
Selected Vector2d type: vector2d_v3_slots.Vector2d
Creating 10,000,000 Vector2d instances
Initial RAM usage:    5,718,016
  Final RAM usage:  655,466,496

real   0m13.605s
user   0m13.163s
sys 0m0.434s

如示例 9-12 所示,在 10 000 000 个 Vector2d 实例中使用 __dict__ 属性时,RAM 用量高达 1.5GB;而在 Vector2d 类中定义 __slots__ 属性之后,RAM 用量降到了 655MB。此外,定义了 __slots__ 属性的版本运行速度也更快。这个测试中使用的 mem_test.py 脚本其实只用于加载一个模块、检查内存用量和格式化结果,所用的代码与本章没有太大关联,因此放入附录 A 中的示例 A-4 里。

 在类中定义 __slots__ 属性之后,实例不能再有 __slots__ 中所列名称之外的其他属性。这只是一个副作用,不是 __slots__ 存在的真正原因。不要使用 __slots__ 属性禁止类的用户新增实例属性。__slots__ 是用于优化的,不是为了约束程序员。

然而,“节省的内存也可能被再次吃掉”:如果把 '__dict__' 这个名称添加到 __slots__ 中,实例会在元组中保存各个实例的属性,此外还支持动态创建属性,这些属性存储在常规的 __dict__ 中。当然,把 '__dict__' 添加到 __slots__ 中可能完全违背了初衷,这取决于各个实例的静态属性和动态属性的数量及其用法。粗心的优化甚至比提早优化还糟糕。

此外,还有一个实例属性可能需要注意,即 __weakref__ 属性,为了让对象支持弱引用(参见 8.6 节),必须有这个属性。用户定义的类中默认就有 __weakref__ 属性。可是,如果类中定义了 __slots__ 属性,而且想把实例作为弱引用的目标,那么要把 '__weakref__' 添加到 __slots__ 中。

综上,__slots__ 属性有些需要注意的地方,而且不能滥用,不能使用它限制用户能赋值的属性。处理列表数据时 __slots__ 属性最有用,例如模式固定的数据库记录,以及特大型数据集。然而,如果你经常处理大量数据,一定要了解一下 NumPy;此外,数据分析库 pandas也值得了解,这个库可以处理非数值数据,而且能导入 / 导出很多不同的列表数据格式。

__slots__ 的问题

总之,如果使用得当,__slots__ 能显著节省内存,不过有几点要注意。

每个子类都要定义 __slots__ 属性,因为解释器会忽略继承的 __slots__ 属性。

实例只能拥有 __slots__ 中列出的属性,除非把 '__dict__' 加入 __slots__ 中(这样做就失去了节省内存的功效)。

如果不把 '__weakref__' 加入 __slots__,实例就不能作为弱引用的目标。

如果你的程序不用处理数百万个实例,或许不值得费劲去创建不寻常的类,那就禁止它创建动态属性或者不支持弱引用。与其他优化措施一样,仅当权衡当下的需求并仔细搜集资料后证明确实有必要时,才应该使用 __slots__ 属性。

本章最后一个话题讨论如何在实例和子类中覆盖类属性。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文