关于接受 zip 文件进行处理的守护进程的建议

发布于 2024-07-17 03:53:47 字数 565 浏览 10 评论 0原文

我希望编写一个守护进程：

从包含 zip 文件路径的队列（sqs、rabbit-mq 等）读取一条消息，
更新数据库中的一条记录，例如“此作业正在处理”
读取上述存档的内容并将一行插入数据库，其中包含从每个文件的文件元数据中剔除的信息，将
每个文件复制到 s3
删除 zip 文件
将作业标记为“完成”
读取队列中的下一条消息，重复

此操作应运行为一项服务，由当有人通过 Web 前端上传文件时排队的消息启动。上传者不需要立即看到结果，但上传会在后台相当方便地处理。

我对Python很熟悉，所以首先想到的是编写一个简单的服务器，用Twisted来处理每个请求并执行上面提到的过程。但是，我从来没有写过这样的东西，可以在多用户上下文中运行。它不会每分钟或每小时处理数百个上传，但如果它可以一次处理多个上传，那就太好了，合理。我也不太熟悉编写多线程应用程序和处理阻塞等问题。

人们过去是如何解决这个问题的？我还可以采取哪些其他方法？

预先感谢您的任何帮助和讨论！

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

苍暮颜 2024-07-24 03:53:47

我使用 Beanstalkd 作为排队守护进程，效果非常好（一些近时处理和图像调整大小 - 过去几周到目前为止已超过 200 万）。使用 zip 文件名（可能来自特定目录）将消息放入队列中 [我以 JSON 格式序列化命令和参数]，当您在工作客户端中保留该消息时，其他人都无法获取它，除非您允许它超时（当它返回到队列中等待接收时）。

剩下的就是解压并上传到S3，S3还有其他库。

如果您想同时处理多个 zip 文件，请根据需要运行多个工作进程。

回复收藏 0 原文