当前位置：文江博客话题详情

如何内存映射一个巨大的矩阵？

发布于 2024-10-14 15:49:50 字数 473 浏览 6 评论 0原文

假设您有一个巨大的（40+ GB）特征值（浮点）矩阵，行是不同的特征，列是样本/图像。

该表是按列预先计算的。然后它被完全按行和多线程访问（每个线程加载整行）多次。

处理这个矩阵的最佳方法是什么？我特别考虑了 5 点：

由于它在 x64 PC 上运行，我可以立即对整个矩阵进行内存映射，但这有意义吗？
多线程的效果如何（多线程初始计算也是如此？）？
如何布局矩阵：行主还是列主？
预计算完成后将矩阵标记为只读是否有帮助？
可以像 http://www.kernel. org/doc/man-pages/online/pages/man2/madvise.2.html 用于加快速度？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

北恋 2024-10-21 15:49:50

映射整个文件的内存可以使该过程变得更加容易。

您希望对数据进行布局以针对最常见的访问模式进行优化。听起来数据将被写入一次（按列）并读取多次（按行）。这表明数据应该按行优先顺序存储。

一旦预计算完成，将矩阵标记为只读可能不会提高性能（有一些可能的低级优化，但我认为没有任何东西实现它们），但它会防止错误意外写入数据你不打算这样做。不妨。

一旦您编写并运行了应用程序，madvise 最终可能会很有用。

我的总体建议：以最简单的方式编写程序，首先按顺序编写，然后在整个过程和各种主要操作周围放置计时器。确保主要操作时间总和等于总时间，这样您就可以确保没有遗漏任何内容。然后将您的性能改进工作集中在实际花费最多时间的组件上。

根据 JimR 在他的评论中提到的 4MB 页面，您可能最终想要研究 Hugetlbfs 或使用具有透明大页面支持的 Linux 内核版本（合并为 2.6.38，可能会修补到早期版本）。这可能会避免大量 TLB 未命中，并说服内核以足够大的块执行磁盘 IO，以分摊任何寻道开销。

回复收藏 0 原文

巷雨优美回忆 2024-10-21 15:49:50

也许吧，见下文。
所有线程的总工作集大小不得超过可用 RAM，否则程序将因交换而以蜗牛速度运行。
只要满足条件 2，布局就应该与访问模式相匹配。
“标记为只读”是什么意思？
测量一下。

回复 3：例如，如果您有 8 个 CPU，但没有足够的 RAM 来加载 8 行，则应该让每个线程以可管理的块顺序处理其行。在这种情况下，矩阵的块布局就有意义了。如果线程必须在内存中拥有整行来处理它，恐怕您无法使用所有 CPU，因为该进程将开始抖动，即将矩阵的某些子集从内存中踢出并重新加载另一个需要的子集。这比完全交换稍微好一点，因为矩阵永远不会被修改，因此页面的内容在被踢出之前不需要写入交换文件。但它仍然严重影响性能。

另外，从多个线程进行随机访问 I/O 是一个坏主意，如果您使用 mmap()，这就是您最终要做的事情。您（大概）只有一个磁盘，并行 I/O 只会使其速度变慢。因此 mmap() 可能没有意义，您可以通过按顺序将数据读入 RAM 来获得更好的 I/O 性能。

请注意，40GB 大约为 1050 万个 4096 字节的页面。通过执行 mmap()，在最坏的情况下，您将因多次硬盘搜索而减慢计算速度。每次搜索 8 毫秒（摘自维基百科），您最终将浪费 83666 秒，即几乎一整天！

回复收藏 0 原文

酷炫老祖宗 2024-10-21 15:49:50

如果您可以将整个内容放入主内存中，那么是的：内存将其全部映射，并且它是列主还是行主并不重要。然而，对于 40+ Gb，我确信它对于主内存来说太大了。在这种情况下：

不，不要绘制整个事物！至少，如果您将其全部映射，则不要指望内存能够像普通内存一样工作。如果你没有正确处理 I/O 问题，你的程序将永远无法运行。
如果您将其存储为行主，则多线程访问问题就可以解决（听起来您没有多线程列写入）。
您应该按行布局，假设每个单元格写入一次然后读取多次。
是的，我认为在写入矩阵后将其标记为只读会有所帮助，但这纯粹是为了防止错误（意外写入）。它不会影响性能。
不，再多巧妙的内核预读也无法解决您的性能问题。你需要在算法层面解决它。

我认为简单的实现会带来性能问题。计算机在写入时会出现抖动（如果您将其存储为行主要），或者在查询时会出现抖动（如果您将其存储为列主要）。后者可能更糟，但这是一个双向的问题。

正确的解决方案是使用中间表示，它既不是行优先也不是列优先，而是“大方块”。获取前 50,000 列并将它们存储在内存映射文件中（阶段 1）。它是列主还是行主并不重要，因为它纯粹驻留在内存中。然后，获取每一行并将其写入最终的行优先内存映射文件（阶段 2）。然后对接下来的 50,000 列重复该循环，依此类推。

回复收藏 0 原文

~没有更多了~