当前位置：文江博客话题详情

如何可靠地处理外部代理定期上传的文件？

发布于 2024-07-14 21:04:26 字数 510 浏览 11 评论 0原文

这是一种非常常见的场景：某个进程希望每 30 分钟左右在服务器上删除一个文件。很简单，对吧？好吧，我可以想到很多可能出错的方法。

例如，处理一个文件可能需要多于或少于 30 分钟，因此新文件可能会在我处理完前一个文件之前到达。我不希望源系统覆盖我仍在处理的文件。

另一方面，文件很大，因此需要几分钟才能完成上传。我不想开始处理部分文件。这些文件只是通过 FTP 或 sftp（我的偏好）传输，因此操作系统级别的锁定不是一个选项。

最后，我确实需要将这些文件保留一段时间，以防我需要手动检查其中一个文件（用于调试）或重新处理其中一个文件。

我见过很多临时方法来调整上传文件、交换文件名、使用日期戳、触摸“指示符”文件以协助同步等等。我还没有看到一个全面的处理文件的“算法”，可以解决并发性、一致性和完整性问题。

所以，我想利用这里群众的智慧。有没有人见过一种真正万无一失的方法来处理批处理数据文件，这样它们就不会过早处理，在完成之前不会被覆盖，并且在处理后安全保存？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

眼眸 2024-07-21 21:04:27

关键是在发送端进行初始处理。发送者需要做的就是：

使用唯一的文件名存储文件。
文件发送后，立即将其移至名为 completed 的子目录。

假设只有一个接收器进程，则接收器需要做的就是：

定期扫描 completed 目录中的任何文件。
文件出现在 completed 中后，将其移动到名为 processed 的子目录，并从那里开始处理它。
完成后可选择将其删除。

在任何健全的文件系统上，文件移动都是原子的，只要它们发生在同一文件系统/卷中。所以不存在竞争条件。

多个接收器

如果处理时间可能比传送文件之间的时间间隔更长，那么除非您有多个接收器进程，否则您将积压工作。那么，如何处理多个接收者的情况呢？

简单：每个接收器进程的运行方式与以前完全相同。关键是我们尝试在处理文件之前将其移动到processed：这一点以及同一文件系统文件移动是原子性的事实意味着即使多个接收者在completed中看到相同的文件并尝试移动它，只有一个会成功。您需要做的就是确保检查 rename() 的返回值，或者用于执行移动的任何操作系统调用，并且仅在成功时才继续处理。如果移动失败，其他接收者会先到达那里，所以只需返回并再次扫描 completed 目录即可。