内存问题：如果我使用交换，我应该写入文件/数据库吗？（Python）

发布于 2024-09-06 23:00:52 字数 278 浏览 10 评论 0 原文

我正在创建和处理一个非常大的数据集，大约有 3400 万个数据点，目前我将它们存储在内存中的 python 字典中（大约 22,500 个字典，1588 个类实例中每个都有 15 个字典）。虽然我能够在内存中管理这一切，但我用完了所有 RAM 和大部分交换空间。

我需要能够首先生成所有这些数据，然后一次对其中的选定部分进行分析。从效率的角度来看，将其中一些数据写入文件或将其存储在数据库中是否有益？或者我最好只是承受使用交换空间带来的效率损失。如果我应该写入文件/数据库，您是否建议使用任何 python 工具来执行此操作？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

一杆小烟枪 2024-09-13 23:00:52

快速获取关系数据库！或者更多的内存。

如果您使用的是 Python，请从 Python 数据库编程开始。 SQLite 是一个选择，但我建议MySQL 根据您正在处理的数据量。如果您想要采用面向对象的方法来存储数据，您可能需要查看 SQLAlchemy，但是您如果您最终自己将每个对象类映射到表并仅处理行和列，可能会获得更高的效率。

回复收藏 0 原文

岁月无声 2024-09-13 23:00:52

因为您将查看“选择部分”，所以您的应用程序将能够比虚拟内存更好地利用核心。 VM 很方便，但是根据定义，引用的位置有点愚蠢。

使用数据库。

为了简单起见，我可能会从模块 sqlite3 开始，除非或直到我发现这是一个瓶颈。

回复收藏 0 原文

离不开的别离 2024-09-13 23:00:52

如果你已经在Python数据结构中拥有这些数据，假设你没有做大量的内存索引（比明显的字典键索引更多），你真的不想使用关系数据库 - 你会付出代价相当大的性能损失却没有任何特别的好处。

您只需将已有的键值对数据从内存中取出，而不是更改其格式。您应该研究键值存储，例如 BDB ，伏地魔，MongoDB 或 Scalaris （只是为了仅举几例 - 有些比其他更复杂、更实用，但所有这些都应该可以轻松处理您的数据集），或者对于您认为可能变得更大或更复杂的数据集，您可以查看诸如 Cassandra, Riak< /a> 或 CouchDB （等等）。所有这些系统将为您提供远远优于关系数据库的性能，并更直接地映射到内存数据模型。

话虽如此，当然，如果您的数据集确实可以通过利用关系数据库的优势（复杂关系、多个视图等）来提高性能，那么就可以使用它，但如果满足以下条件，则不应使用关系数据库：您要做的就是将数据结构从内存中取出。

（假设您的访问模式使分页调入/调出相对不频繁的事件，那么仅按段编组/腌制数据并自行管理它可能会提供比关系数据库更好的性能。这是一个不太可能的情况，但如果您只是保留旧数据而没有人真正查看它，您不妨自己将其扔到磁盘上。）