操作系统如何处理大于内存的Python字典？

发布于 2024-08-24 19:56:06 字数 174 浏览 5 评论 0原文

我有一个 python 程序，它会消耗大量内存，主要是在字典中。该字典将负责为一组非常大的键分配唯一的整数值。当我处理大型矩阵时，我需要一个也可以从中恢复的键到索引的对应关系（即，一旦矩阵计算完成，我需要将值映射回原始键）。

我相信这个数量最终将超过可用内存。我想知道如何处理交换空间。也许有更好的数据结构用于此目的。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

故人爱我别走 2024-08-31 19:56:06

如果数据超出内存，则需要数据库。当字典大于内存时，字典索引的设计并不是为了获得良好的性能。

回复收藏 0 原文

深居我梦 2024-08-31 19:56:06

交换空间是一个内核功能，对用户是透明的（python）。

如果您确实有一个巨大的字典并且不需要一次需要所有数据，您可以查看 redis 这可能会做你想做的事。或者也许不是:)

回复收藏 0 原文

过潦 2024-08-31 19:56:06

它最终只会导致交换垃圾，因为哈希表具有非常随机的内存访问模式。

如果您知道映射超出了物理内存的大小，则可以首先考虑使用磁盘上的数据结构。尤其是如果您在计算过程中不需要数据结构的话。当哈希表触发交换时，它也会在哈希表本身之外产生问题。

回复收藏 0 原文

哎呦我呸! 2024-08-31 19:56:06

据我所知，当一个字典被扩展时，它只依赖于C的malloc。只要 malloc 持续成功，程序就会继续运行。只要有足够的内存，并且只要有可以交换的页面，大多数操作系统都会保持 malloc 工作。在任何一种情况下，当 malloc 失败时，Python 都会抛出 MemoryError 异常，根据文档。就数据结构而言，dict 在空间方面将非常高效。真正做得更好的唯一方法是使用分析函数来回映射值。

回复收藏 0 原文

~没有更多了~