阻止 rsync 删除未完成的源文件

发布于 2024-07-04 02:05:12 字数 265 浏览 12 评论 0原文

我有两台机器，速度和质量。 speed 具有快速的互联网连接，并且正在运行爬虫程序，将大量文件下载到磁盘。质量有大量的磁盘空间。我想在下载完成后将文件从速度移动到质量。理想情况下，我只是运行：

$ rsync --remove-source-files speed:/var/crawldir .

但我担心 rsync 会取消链接尚未完成下载的源文件。（我查看了源代码，没有看到任何针对此问题的保护措施。）有什么建议吗？

原文

I have two machines, speed and mass. speed has a fast Internet connection and is running a crawler which downloads a lot of files to disk. mass has a lot of disk space. I want to move the files from speed to mass after they're done downloading. Ideally, I'd just run:

$ rsync --remove-source-files speed:/var/crawldir .

but I worry that rsync will unlink a source file that hasn't finished downloading yet. (I looked at the source code and I didn't see anything protecting against this.) Any suggestions?

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

空袭的梦i 2024-07-11 02:05:13

您对下载过程有多少控制权？如果您自己动手，则可以将正在下载的文件转到临时目录或使用临时名称，直到下载完成为止，然后在完成后将其 mv 到正确的名称。如果您使用第三方软件，那么您没有那么多的控制权，但您仍然可以执行临时目录的操作。

回复收藏 0 原文

橘香 2024-07-11 02:05:13

Rsync 可以排除与某些模式匹配的文件。即使您无法修改它以使其将文件下载到临时目录，也许它有一个在下载过程中以不同的方式命名文件的约定（例如：在下载名为的文件时 foo.downloading foo)，您可以使用此属性来排除仍在复制的下载文件。

回复收藏 0 原文

各自安好 2024-07-11 02:05:13

如果您可以控制爬网过程，或者它具有可预测的输出，则上述解决方案（存储在临时文件中直到完成，然后移动到已完成的下载位置，或忽略具有“.downloading”类型名称的文件）可能会起作用。如果所有这些都超出了您的控制范围，您可以通过执行“lsof $filename”并检查是否有结果来确保该文件没有被任何进程打开。显然，如果没有人打开该文件，则可以安全地将其移动。

回复收藏 0 原文