同时处理多个文件 —复制文件还是通过 NFS 读取文件？

发布于 2024-10-07 18:57:15 字数 689 浏览 4 评论 0原文

我需要同时处理大量文件（数千个不同的文件，每个文件的平均大小为 2MB）。

所有信息都存储在一个（1.5TB）网络硬盘上，并将由大约 30 台不同的机器进行处理。为了提高效率，每台机器将读取（并处理）不同的文件（有数千个文件需要处理）。

每台机器在从 1.5TB 硬盘上的“传入”文件夹中读取文件后，都会处理该信息，并准备将处理后的信息输出回 1.5TB 硬盘上的“已处理”文件夹。每个文件的处理信息的平均大小与输入文件大致相同（每个文件约 2MB）。

更好的做法是：

（1）对于每台处理机M，将M将要处理的所有文件复制到其本地硬盘中，然后读取& ;在机器 M 上本地处理文件。

(2) 每台机器不会将文件复制到每台机器，而是直接访问“传入”文件夹（使用 NFS），并从那里读取文件，然后在本地处理它们。

哪个想法更好？当一个人做这样的事情时，有什么“该做”和“不该做”的事情吗？

我最好奇的是，让 30 台左右的机器同时读取（或写入）信息到同一个网络驱动器是否会出现问题？

（注意：现有文件只能被读取，不能附加/写入；新文件将从头开始创建，因此不存在对同一文件进行多次访问的问题...）。是否存在我应该预料到的瓶颈？

（如果重要的话，我在所有机器上使用 Linux、Ubuntu 10.04 LTS）

需要登录才能够评论，你可以免费注册一个本站的账号。

满意归宿 2024-10-14 18:57:15

我肯定会做#2 - 我会这样做：

在主服务器上运行 Apache 以及所有文件。（或者其他一些 HTTP 服务器，如果你真的想要的话）。我这样做有几个原因：

HTTP 基本上是纯 TCP（上面有一些标头）。一旦请求被发送——这是一个非常“单向”的协议。开销低，不闲聊。高性能和高效率 - 低开销。
如果您（无论出于何种原因）决定需要移动或扩展它（例如，使用云服务），HTTP 将是比 NFS 更好的通过开放 Internet 移动数据的方式。您可以使用 SSL（如果需要）。您可以通过防火墙（如果需要）。等等..等等..等等...
根据文件的访问模式，并假设需要读取整个文件 - 仅执行一个网络操作会更容易/更快- 一次将整个文件拉入 - 而不是每次读取文件的一小部分时不断地通过网络请求 I/O。
分发和运行一个执行所有这些操作的应用程序可能很容易 - 并且不依赖于网络安装的存在 - 特定文件路径等。如果您有文件的 URL - 客户端可以做到这一点工作。它不需要建立挂载、硬目录 - 或成为 root 来设置此类挂载。
如果您遇到 NFS 连接问题 - 当您尝试访问安装并且它们挂起时，整个系统可能会变得异常。当 HTTP 在用户空间上下文中运行时 - 您只会收到超时错误 - 并且您的应用程序可以采取它选择的任何操作（例如页面您 - 记录错误等）。