在 jvm 中缓存 tar 以获得更快的文件 I/O？

发布于 2024-07-09 21:18:02 字数 810 浏览 15 评论 0原文

我正在开发一个 Java Web 应用程序，该应用程序使用数千个小文件来构建工件以响应请求。我认为，如果我们能够将这些文件映射到内存中，而不是一直在磁盘上运行来查找它们，我们的系统可以看到性能改进。

我听说过 Linux 中的 mmap，我对该概念的基本理解是，当从磁盘读取文件时，文件的内容会缓存在内存中的某个位置，以便更快地进行后续访问。我的想法与这个想法类似，只是我想在我的网络应用程序初始化以获得最小请求时间响应时将整个可映射的文件集读入内存。

我的想法之一是，如果文件都被打包并以某种方式作为虚拟文件系统安装在 JVM 中，我们可能会更快地将它们放入 jvm 内存中。就目前情况而言，我们当前的实现可能需要几分钟的时间来遍历源文件集并找出磁盘上的所有内容。这是因为我们实际上正在对超过 300,000 个文件进行文件统计。

我发现 apache VFS 项目可以从 tar 文件中读取信息，但我不确定他们的文档是否可以指定诸如“另外，将整个 tar 读入内存并将其保存在那里......”之类的内容。

我们在这里讨论的是一个多线程环境，它提供的工件通常会从 300,000 多个源文件的完整集合中拼凑出大约 100 个不同的文件来做出一个响应。因此，无论虚拟文件系统解决方案是什么，它都需要线程安全且高性能。我们这里只讨论读取文件，不讨论写入。

此外，我们运行的是具有 32 GB RAM 的 64 位操作系统，我们的 300,000 个文件占用大约 1.5 到 2.5 GB 的空间。我们肯定可以比 300K 几千字节大小的小文件更快地将 2.5 GB 的文件读入内存。

感谢您的投入！

贾森

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

南城追梦 2024-07-16 21:18:02

您可以尝试将所有文件放入 JAR 中并将其放在类路径中。 Java 使用一些内置技巧来非常快速地读取 JAR 文件。这也会将所有文件的目录保留在 RAM 中，因此您不必访问磁盘来查找文件（这会在您开始加载文件之前发生）。

JVM 不会立即将整个 JAR 加载到 RAM 中，而且您可能也不希望这样做，因为您的机器将开始交换。但它将能够非常快速地找到这些片段，因为它将使文件始终保持打开状态，因此，您不会丢失任何打开/关闭文件资源的时间。

此外，由于您一直在使用这个单个文件，因此操作系统很可能会将其在文件缓存中保留更长时间。

最后，您可以尝试压缩 JAR。虽然这听起来像是一个坏主意，但您应该尝试一下。如果小文件压缩得很好，用当前CPU解包的时间比从磁盘读取数据的时间要低得多。如果您不必在任何地方保留中间数据，则可以将未压缩的数据流式传输到客户端，而无需写入文件（这会破坏整个想法）。这样做的缺点是它确实会消耗 CPU 周期，并且如果您的 CPU 很忙（只需使用某些负载工具检查一下；如果它高于 20%，那么您就松了），那么您将使整个过程变慢。

也就是说，当您使用 HTTP 协议时，您可以告诉客户端您正在发送压缩数据！这样，您就不必解压数据，并且可以加载非常小的文件。

JAR 解决方案的主要缺点：只要服务器正在运行，您就无法更换 JAR。因此，替换文件意味着您必须重新启动服务器。

回复收藏 0 原文

仲春光 2024-07-16 21:18:02

如果您需要快速访问 300,000 个文件，您可以使用数据库，不是关系数据库，而是简单的键值数据库，例如 http://www.space4j.org/。这不会帮助您缩短启动时间，但在运行时可能会大大加快速度。

回复收藏 0 原文

有深☉意 2024-07-16 21:18:02

只是为了澄清一下，类 Unix 中的 mmap()系统不允许您访问此类文件；它只是使文件的内容在内存中可用，作为内存。您无法使用 open() 进一步打开任何包含的文件。不存在“mmap()可用的文件集”这样的东西。

难道您不能只添加一个最初加载所有“模板”的通道，然后根据一些简单的东西（例如每个名称的哈希值）快速找到它们吗？这应该可以让您充分利用您的记忆，并对任何模板进行 O(1) 访问。

回复收藏 0 原文

秋千易 2024-07-16 21:18:02

我认为您仍在考虑旧的内存/磁盘模式。

mmap 在这里没有帮助，因为旧的内存/磁盘的东西早已不复存在。如果您映射文件，内核将返回一个指向某些虚拟内存的指针，供您自行决定使用，它不会将文件加载到 >真实内存一次，当您请求文件的一部分时，它会这样做，并且它只会加载您请求的页面。（也就是说，一个内存页，通常约为 4KB。）

你说这 300k 个文件，大约需要 1.5GB 到 2.5GB 的磁盘空间。如果您有机会可以在服务器中添加 2（或更好，4）GB 的 RAM，那么您最好将磁盘读取任务留给操作系统，如果它有足够的 RAM在某些磁盘缓存中加载文件，它会从它们中读取它们，甚至不会命中磁盘。（如果您没有使用 noatime 挂载卷，它将在 inode 中存储 atime。）

如果您尝试 read() 文件，将它们放入内存，并从那里提供它们，您现在可以确定地知道它们将始终位于RAM中，而不是在交换区中，因为操作系统对您一段时间未使用的那部分内存还有其他事情要做。

如果您有足够的 RAM 来让操作系统进行磁盘缓存，并且您确实希望加载文件，那么您始终可以执行一个小脚本/程序来遍历您的层次结构并读取所有文件。（不做任何其他事情。）它会让操作系统将它们从磁盘加载到内存磁盘缓存，但您无法知道如果操作系统需要内存，它们会留在那里。因此，正如我之前所说，您应该让操作系统处理该问题，并为其提供足够的 RAM 来执行此操作。

您应该阅读 varnish 的架构师笔记其中 phk 用他自己的话告诉你，为什么你想要实现的目标最好留给操作系统，操作系统永远永远，更好地了解 JVM RAM 中包含哪些内容，哪些不在 RAM 中。