如何使大型 python 数据结构更有效地 unpickle？

发布于 2024-10-18 20:21:19 字数 380 浏览 2 评论 0 原文

我有一个约 170 万个“令牌”对象的列表，以及一个约 130,000 个“结构”对象的列表，这些对象引用令牌对象并将它们分组为结构。天气好的时候，内存占用约为 800MB。

我使用 __slots__ 来减少内存占用，因此我的 __getstate__ 返回一个可序列化值的元组，该元组会被 __setstate__ 塞回原位。我也不会腌制所有实例数据，仅腌制 5 个令牌项、7-9 个结构项、所有字符串或整数。

当然，我使用的是cPickle和HIGHEST_PROTOCOL，它恰好是2（python 2.6）。生成的 pickle 文件约为 120MB。

在我的开发机器上，解开 pickle 大约需要 2 分钟。我想让这更快。除了更快的硬件和我已经在做的事情之外，我还可以使用哪些方法？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

醉生梦死 2024-10-25 20:21:19

Pickle 并不是存储大量相似数据的最佳方法。对于大型数据集来说，它可能会很慢，更重要的是，它非常脆弱：改变源很容易破坏所有现有的数据集。（我建议您阅读 pickle 的本质：一堆字节码表达式。它会吓到您考虑其他数据存储/检索方式。）

您应该考虑使用 PyTables，它使用 HDF5（跨平台和一切）来存储任意大量的数据。您甚至不必立即将文件中的所有内容加载到内存中；您可以分段访问它。您描述的结构听起来非常适合“表”对象，该对象具有一组字段结构（由固定长度字符串、整数、小型 Numpy 数组等组成）并且可以非常有效地保存大量数据。为了存储元数据，我建议使用表的 ._v_attrs 属性。