当前位置：文江博客话题详情

使用 Python 和 NumPy 的非常大的矩阵

发布于 2024-07-26 10:15:58 字数 257 浏览 1 评论 0原文

NumPy 是一个非常有用的库，通过使用它我发现它能够处理矩阵它们很容易变得很大（10000 x 10000），但开始与更大的东西作斗争（尝试创建 50000 x 50000 的矩阵失败）。显然，这是因为大量的内存需求。

有没有办法以某种方式在 NumPy 中本地创建巨大的矩阵（比如 100 万乘 100 万）（无需几 TB 的 RAM）？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

拥有 2024-08-02 10:15:59

据我对 numpy 的了解，不，但我可能是错的。

我可以向您建议这个替代解决方案：将矩阵写入磁盘并分块访问它。我建议您使用 HDF5 文件格式。如果您明显需要它，您可以重新实现 ndarray 接口，将磁盘存储的矩阵分页到内存中。如果您修改数据以将其同步回磁盘上，请务必小心。

回复收藏 0 原文

楠木可依 2024-08-02 10:15:58

PyTables 和 NumPy 是最佳选择。

PyTables 将以 HDF 格式将数据存储在磁盘上，并可选择压缩。我的数据集通常会进行 10 倍压缩，这在处理数千万或数亿行时非常方便。它也非常快；我的 5 年旧笔记本电脑可以以 1,000,000 行/秒的速度处理数据，执行类似 SQL 的 GROUP BY 聚合。对于基于 Python 的解决方案来说还不错！

再次以 NumPy 重新数组的形式访问数据非常简单：

data = table[row_from:row_to]

HDF 库负责读取相关数据块并转换为 NumPy。

PyTables and NumPy are the way to go.

PyTables will store the data on disk in HDF format, with optional compression. My datasets often get 10x compression, which is handy when dealing with tens or hundreds of millions of rows. It's also very fast; my 5 year old laptop can crunch through data doing SQL-like GROUP BY aggregation at 1,000,000 rows/second. Not bad for a Python-based solution!

Accessing the data as a NumPy recarray again is as simple as:

data = table[row_from:row_to]

The HDF library takes care of reading in the relevant chunks of data and converting to NumPy.

回复收藏 0 原文

送君千里 2024-08-02 10:15:58

numpy.array 应该存在于内存中。如果您想使用大于 RAM 的矩阵，则必须解决这个问题。您至少可以遵循两种方法：

尝试更有效的矩阵表示，利用矩阵所具有的任何特殊结构。例如，正如其他人已经指出的那样，稀疏矩阵（有很多零的矩阵）有有效的数据结构，例如 scipy.sparse.csc_matrix。
修改您的算法以处理子矩阵。您只能从磁盘读取当前正在计算中使用的矩阵块。设计用于在集群上运行的算法通常按块工作，因为数据分散在不同的计算机上，并且仅在需要时才传递。例如，矩阵乘法的 Fox 算法（PDF 文件）。

回复收藏 0 原文

妄断弥空 2024-08-02 10:15:58

您应该能够使用 numpy.memmap 将文件映射到磁盘上。对于较新的 python 和 64 位机器，您应该拥有必要的地址空间，而无需将所有内容加载到内存中。操作系统应该只处理将文件的一部分保留在内存中。

回复收藏 0 原文

赢得她心 2024-08-02 10:15:58

要处理稀疏矩阵，您需要位于 numpy 之上的 scipy 包 - 请参阅此处了解有关 scipy 为您提供的稀疏矩阵选项的更多详细信息。

回复收藏 0 原文

叫思念不要吵 2024-08-02 10:15:58

Stefano Borini 的帖子让我了解了这种情况能走多远事情已经是了。

就是这样。它似乎基本上可以满足您的要求。 HDF5 将允许您存储非常大的数据集，然后以与 NumPy 相同的方式访问和使用它们。

回复收藏 0 原文

作业与我同在 2024-08-02 10:15:58

确保您使用的是 64 位操作系统和 64 位版本的 Python/NumPy。请注意，在 32 位架构上，您通常可以寻址 3GB 内存（大约 1GB 会因内存映射 I/O 等而丢失）。

对于 64 位和大于可用 RAM 的事物数组，您可以摆脱虚拟内存，但如果必须交换，事物会变得更慢。此外，内存映射（请参阅 numpy.memmap）是一种处理磁盘上大文件而不将其加载到内存中的方法，但同样，您需要有一个 64 位地址空间才能使用，这样才能发挥很大作用。 PyTables 也会为您完成大部分工作。

回复收藏 0 原文

若水微香 2024-08-02 10:15:58

有时，一种简单的解决方案是为矩阵项使用自定义类型。根据您需要的数字范围，您可以使用手动dtype，并且特别适合您的项目。因为 Numpy 默认情况下考虑对象的最大类型，所以在许多情况下这可能是一个有用的想法。这是一个示例：

In [70]: a = np.arange(5)

In [71]: a[0].dtype
Out[71]: dtype('int64')

In [72]: a.nbytes
Out[72]: 40

In [73]: a = np.arange(0, 2, 0.5)

In [74]: a[0].dtype
Out[74]: dtype('float64')

In [75]: a.nbytes
Out[75]: 32

并且使用自定义类型：

In [80]: a = np.arange(5, dtype=np.int8)

In [81]: a.nbytes
Out[81]: 5

In [76]: a = np.arange(0, 2, 0.5, dtype=np.float16)

In [78]: a.nbytes
Out[78]: 8

Sometimes one simple solution is using a custom type for your matrix items. Based on the range of numbers you need, you can use a manual dtype and specially smaller for your items. Because Numpy considers the largest type for object by default this might be a helpful idea in many cases. Here is an example:

In [70]: a = np.arange(5)

In [71]: a[0].dtype
Out[71]: dtype('int64')

In [72]: a.nbytes
Out[72]: 40

In [73]: a = np.arange(0, 2, 0.5)

In [74]: a[0].dtype
Out[74]: dtype('float64')

In [75]: a.nbytes
Out[75]: 32

And with custom type:

In [80]: a = np.arange(5, dtype=np.int8)

In [81]: a.nbytes
Out[81]: 5

In [76]: a = np.arange(0, 2, 0.5, dtype=np.float16)

In [78]: a.nbytes
Out[78]: 8

回复收藏 0 原文