Linux/perl mmap 性能

发布于 2024-07-26 03:54:33 字数 779 浏览 3 评论 0原文

我正在尝试使用 mmap 优化大型数据集的处理。数据集在千兆字节范围内。这个想法是将整个文件映射到内存中，允许多个进程同时处理数据集（只读）。但它并没有按预期工作。

作为一个简单的测试，我简单地映射文件（使用 perl 的 Sys::Mmap 模块，使用“mmap”子，我相信它直接映射到底层 C 函数）并使进程睡眠。执行此操作时，代码在从 mmap 调用返回之前花费了超过一分钟的时间，尽管此测试没有从 mmap 文件中执行任何操作（甚至没有进行读取）。

猜测，我虽然也许linux需要在第一次mmap'ed时读取整个文件，所以在第一个进程中映射文件后（当它正在睡眠时），我在另一个进程中调用了一个简单的测试，试图读取文件的前几兆字节。

令人惊讶的是，第二个进程似乎在从 mmap 调用返回之前也花费了很多时间，大约与第一次 mmap 文件的时间相同。

我已确保正在使用 MAP_SHARED，并且第一次映射文件的进程仍然处于活动状态（它尚未终止，并且 mmap 尚未取消映射）。

我预计 mmap 文件将允许我为多个工作进程提供对大文件的有效随机访问，但如果每个 mmap 调用都需要首先读取整个文件，那就有点困难了。我还没有使用长时间运行的进程进行测试来查看第一次延迟后访问是否很快，但我预计使用 MAP_SHARED 和另一个单独的进程就足够了。

我的理论是 mmap 或多或少会立即返回，而 linux 会或多或少按需加载块，但我看到的行为是相反的，表明它需要在每次调用 mmap 时读取整个文件。

知道我做错了什么，或者我是否完全误解了 mmap 应该如何工作？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

少女情怀诗 2024-08-02 03:54:33

好的，找到问题了。正如所怀疑的，Linux 或 Perl 都不是罪魁祸首。要打开并访问该文件，我会执行以下操作：

#!/usr/bin/perl
# Create 1 GB file if you do not have one:
# dd if=/dev/urandom of=test.bin bs=1048576 count=1000
use strict; use warnings;
use Sys::Mmap;

open (my $fh, "<test.bin")
    || die "open: $!";

my $t = time;
print STDERR "mmapping.. ";
mmap (my $mh, 0, PROT_READ, MAP_SHARED, $fh)
    || die "mmap: $!";
my $str = unpack ("A1024", substr ($mh, 0, 1024));
print STDERR " ", time-$t, " seconds\nsleeping..";

sleep (60*60);

如果您测试该代码，则不会出现像我在原始代码中发现的那样的延迟，并且在创建最小示例之后（始终这样做，对吧！），原因突然变得显而易见。

错误是我在代码中将 $mh 标量视为句柄，这是一种重量轻且可以轻松移动的东西（阅读：按值传递）。事实证明，它实际上是一个 GB 长的字符串，绝对不是您想要在不创建显式引用的情况下移动的东西（perl 语言中表示“指针”/句柄值）。因此，如果您需要以散列或类似形式存储，请确保存储 \$mh，并在需要像 ${$hash->{mh 一样使用它时取消引用它}}，通常作为 substr 或类似参数中的第一个参数。

Ok, found the problem. As suspected, neither linux or perl were to blame. To open and access the file I do something like this:

#!/usr/bin/perl
# Create 1 GB file if you do not have one:
# dd if=/dev/urandom of=test.bin bs=1048576 count=1000
use strict; use warnings;
use Sys::Mmap;

open (my $fh, "<test.bin")
    || die "open: $!";

my $t = time;
print STDERR "mmapping.. ";
mmap (my $mh, 0, PROT_READ, MAP_SHARED, $fh)
    || die "mmap: $!";
my $str = unpack ("A1024", substr ($mh, 0, 1024));
print STDERR " ", time-$t, " seconds\nsleeping..";

sleep (60*60);

If you test that code, there are no delays like those I found in my original code, and after creating the minimal sample (always do that, right!) the reason suddenly became obvious.

The error was that I in my code treated the $mh scalar as a handle, something which is light weight and can be moved around easily (read: pass by value). Turns out, it's actually a GB long string, definitively not something you want to move around without creating an explicit reference (perl lingua for a "pointer"/handle value). So if you need to store in in a hash or similar, make sure you store \$mh, and deref it when you need to use it like ${$hash->{mh}}, typically as the first parameter in a substr or similar.

回复收藏 0 原文