当前位置：文江博客话题详情

将 32 位整数存储到磁盘的绝对最快方法？

发布于 2024-10-14 15:09:59 字数 338 浏览 9 评论 0原文

我有一个对延迟非常敏感的例程，它按顺序生成整数，但需要将最后生成的整数存储到磁盘，以防崩溃或重新启动。

目前我正在寻找文件的开头，然后写出整数，然后在每次生成新的 int 时刷新。需要刷新，以便写入至少到达电池供电的控制器缓存。

查找的成本相当高，因此我考虑只附加 4 个字节，如果需要恢复，则查找到末尾并读取最后 4 个字节。前面的陈述显然假设没有发生太多其他磁盘活动，因此写磁头理想情况下应保留在文件末尾。

该数字通常不会超过 10,000,000，因此 40MB 也还不错。

关于如何在不牺牲完整性的情况下实现最小延迟的任何建议？

Linux 2.6+ 上的 C 或 C++

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

平生欢 2024-10-21 15:10:00

为什么您的应用程序必须等待写入完成？

异步写入数据，或者可能从另一个线程写入数据。

您实际上对硬盘驱动器没有太多的低级控制。只要您一次写入这么少的数据，就会产生大量昂贵的搜索。但由于您仅将其用作发生崩溃时恢复的“检查点”，因此似乎没有理由不能异步进行写入。

回复收藏 0 原文

沧桑㈠ 2024-10-21 15:10:00

无论块大小如何，存储 int 仅占用磁盘上的一个块。因此，您必须将一个块同步到光盘，并且需要很长时间才能完成，而且您无法采取任何措施使其更快。

无论你做什么，fdatasync() 都将是时间上的杀手。它将把一个块同步到您的（电池支持的 RAID）控制器中。

除非您有某种非易失性内存，否则所有（合理的）方法都将完全相同，因为它们都需要同步一个块。

执行搜索系统调用不会产生任何影响，因为这对硬件没有影响。无论如何，您可以通过使用 pwrite() 来避免它。

回复收藏 0 原文

爱给你人给你 2024-10-21 15:10:00

考虑一下“附加 4 个字节”的含义。磁盘不存储文件，甚至字节。它们存储簇以及固定数量的簇。文件的概念是由操作系统创建的。它将一些簇分配给文件系统表，以跟踪文件的精确位置。现在，追加 4 个字节意味着至少将这 4 个字节写入簇。但这也意味着确定哪个集群。现有文件大小是多少？我们需要一个新的集群吗？如果没有，我们需要读取最后一个簇，将4个字节修补到正确的位置，然后写回簇，然后更新文件系统中的文件大小。如果我们确实追加一个新簇，我们可以写入 4 个字节，后跟零（不需要旧值），但我们需要做大量的簿记工作才能将簇添加到文件中。

因此，绝对最快的方法不可能是附加 4 个字节。您必须覆盖 4 个现有字节。最好是在内存中已有的扇区中。其他人已经指出，您可以使用 mmap/msync 来实现这一点。

显然，考虑到当前的 SSD 和开发人员价格以及您的 40 MB 限制，您将使用 SSD。如果你节省一个小时，那就值得了。因此寻道时间无关紧要； SSD 没有物理磁头。

回复收藏 0 原文

简单爱 2024-10-21 15:10:00

这里有很多人谈论 mmap() 好像这会解决某些问题，但是与磁盘写入开销相比，您的系统调用开销基本上为零。请记住，附加或写入文件需要您无论如何都要更新索引节点（mtime，文件大小），这意味着磁盘寻道。

我建议您考虑将整数存储在磁盘以外的地方。例如：

将其写入您控制的某些 nvram（例如在嵌入式系统上）。（如果您的 RAID 控制器有用于写入的 nvram，它可能会为您执行此操作。但如果您问这个问题，它可能不会。）
将其写入系统 CMOS 内存中的可用字节（例如，在PC 硬件）。
将其写入网络上的另一台计算机（如果是快速网络）并让它们确认。
重新设计您的应用程序，以便您可以在每 n 笔交易之后（而不是每次交易之后）进行同步。这将比每次都快大约 n 倍。
重新设计您的应用程序，以便如果整数丢失，您最近事务的更改也会丢失。那么，从技术上讲，您丢失了整数更新这一事实并不重要。当您重新启动时，就好像您从未增加过它一样，因此您可以从那里恢复。

你没有解释为什么你需要这种行为；老实说，如果你的应用程序需要这个，听起来你的应用程序可能设计得不是很好。例如，有些人建议使用数据库，因为他们一直在做这种事情；确实如此，但数据库的速度很慢（即每次都同步磁盘），除非您首先创建事务，在这种情况下，磁盘仅需要在您执行“提交事务”时同步。但是，如果您绝对必须在每个整数之后进行同步，那么您将不断提交事务，而数据库无法帮助您避免这种情况；数据库没有什么神奇的方法可以保证不丢失数据，除非它至少执行了 fdatasync()。

回复收藏 0 原文

寄居人 2024-10-21 15:09:59

我认为最快/最简单的方法是使用 mmap/msync——将文件的 1 页映射到内存中并将值存储在该页上。每当值发生变化时，调用 msync(2) 强制将页面返回到磁盘。这样每个商店只需要一次系统调用

回复收藏 0 原文

昔梦 2024-10-21 15:09:59

如果我没看错的话，使用内存映射文件怎么样？只需将您的号码写入指定的地址，它就会出现在文件中。这假设操作系统在需要时将缓存稳健地写入磁盘，但您可能会发现它值得一试。

int len = sizeof(unsigned);
int fildes = open(...)
void* address = mmap(0, len, PROT_READ, MAP_PRIVATE, fildes, 0)
unsigned* mappedNumber = (unsigned*)(address);

*mappedNumber 现在可以包含您的整数。

If I read correctly, how about using a memory mapped file? Just write your number to the assigned address and it appears in the file. This makes assumptions that the OS writing the cache to disk robustly when needed, but you might find it worth a try.

int len = sizeof(unsigned);
int fildes = open(...)
void* address = mmap(0, len, PROT_READ, MAP_PRIVATE, fildes, 0)
unsigned* mappedNumber = (unsigned*)(address);

*mappedNumber can now contain your integer.

回复收藏 0 原文

萌能量女王 2024-10-21 15:09:59

测量。

您对硬件有多少控制权？如果没有满，您将得不到任何保证。

在 Linux 上，我可能会尝试制作一个内核驱动程序，它会以最高优先级进行写入，甚至可能不使用文件系统。

但是，理论上......如果足以让您命中控制器缓存，那么每次将任何内容刷新到磁盘时数据都会命中它。这意味着无论驱动器内部是否存在物理查找，数据都已经存在。而且因为您永远不会知道其他应用程序会做什么，或者磁盘旋转的速度有多快，所以即使您将逻辑文件句柄保留在文件的开头或结尾，您的查找也将是随机的。

您随时可以要求您的用户使用闪存驱动器。

回复收藏 0 原文

呆 2024-10-21 15:09:59

写入文件的最快方法是将文件映射到内存并将其视为字符数组。

如果您不关心操作系统崩溃（Linux 在生产中从未对我造成过崩溃），则无需同步文件。您的所有写入都会绕过内核进入该文件映射，换句话说，真正的零复制（您还不能在标准硬件上使用套接字来做到这一点）。您可能需要在该文件中保留一个标头，其中包含许多写入的记录，以防应用程序在将记录写入内存期间崩溃。即写入一条记录，然后才增加记录计数器。

调整此文件的大小需要 ftruncate()/remap() 序列，这可能会花费太长的时间，因此您可能希望通过按一个因子增大文件来最小化调整大小，例如 std::vector< ;> 当 push_back() 溢出时，其大小会增加 1.5 倍。根据您的吞吐量和延迟要求，可以应用某些优化。

内核将异步地将文件映射写入磁盘（就好像应用程序中有另一个线程专门用于写入磁盘）。有一种方法可以在必要时使用 msync() 强制写入磁盘。然而，只有当您想在操作系统崩溃中幸存下来时，才有必要这样做。但无论如何，在操作系统崩溃中幸存下来都需要复杂的应用程序设计，因此在实践中，在应用程序崩溃中幸存就足够了。