进程的异步生成：设计问题 - Celery 或 Twisted

发布于 2024-10-11 00:57:04 字数 693 浏览 3 评论 0原文

全部：我正在寻求意见/指导/和设计理念。我的目标是找到一种精简但可靠的方法来从 HTTP POST 获取 XML 有效负载（这部分没有问题），对其进行解析，并异步生成一个相对寿命较长的进程。

生成的进程是 CPU 密集型进程，将持续大约三分钟。一开始我预计负载不会太大，但随着流量的增加，我很可能需要在服务器之间水平扩展负载。

我真的很喜欢 Celery/Django 堆栈的这种用途：它非常直观，并且拥有所有内置框架来完成我所需要的工作。我满怀热情地沿着这条路走下去，但很快我发现我的小型 512MB RAM 云服务器只有 100MB 的可用内存，并且我开始感觉到，一旦我的所有进程全速运行，我就会遇到麻烦。此外，它还有几个移动部件：RabbitMQ、MySQL、cerleryd、ligthttpd 和 django 容器。

我绝对可以增加服务器的大小，但我希望在该项目的早期阶段将成本降至最低。

作为替代方案，我正在考虑使用twisted 进行流程管理，并在需要时使用透视代理用于远程系统。但至少对我来说，虽然twisted很出色，但我觉得我沿着这条路做了很多事情：编写协议、回调管理、跟踪作业状态等。这里的好处非常明显 - 出色的性能，移动部件少得多，内存占用也更小（注意：我需要验证内存部分）。为此我非常偏向Python——它对我来说比其他选择更令人愉快:)

我非常感谢对此的任何观点。我担心一开始就走上错误的轨道，并且稍后用生产流量重做这件事将会很痛苦。

-马特

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

伪装你 2024-10-18 00:57:04

在我的系统上，以相当合理的默认值运行的 RabbitMQ 使用大约 2MB 的 RAM。 Celeryd用量稍多一些，但不要过量。

在我看来，与堆栈的其余部分相比，RabbitMQ 和 celery 的开销几乎可以忽略不计。如果您正在处理需要几分钟才能完成的作业，那么一旦流量增加，这些作业就会压垮您的 512MB 服务器，而不是 RabbitMQ。从 RabbitMQ 和 Celery 开始至少会让您很好地水平扩展这些工作，所以您肯定走在正确的轨道上。

当然，您可以在 Twisted 中编写自己的作业控制，但我认为它不会给您带来太大帮助。 Twisted 具有相当不错的性能，但我不认为它的性能优于 RabbitMQ 足以证明引入错误和架构限制的时间和潜力是合理的。大多数情况下，担心优化似乎是错误的。花点时间重写 RabbitMQ，努力将这三分钟的工作减少 20% 左右。或者只需每月额外花费 20 美元即可将容量翻倍。

回复收藏 0 原文

天冷不及心凉 2024-10-18 00:57:04

我将回答这个问题，就好像我是该项目的负责人一样，希望这能给您一些见解。

我正在开发一个项目，需要使用队列、面向公众的 Web 应用程序的 Web 服务器和多个作业客户端。

这个想法是让网络服务器持续运行（这里不需要非常强大的机器）。然而，工作是由这些作业客户端处理的，它们是更强大的机器，可以随意启动和停止。作业队列也将与 Web 应用程序驻留在同一台计算机上。当作业插入队列时，启动作业客户端的进程将启动并旋转第一个客户端。使用可以在负载增加时启动新服务器的负载平衡器，我不必费心管理正在运行的服务器数量来处理队列中的作业。如果一段时间后队列中没有作业，则可以终止所有作业客户端。

我建议使用与此类似的设置。您不希望作业执行影响 Web 应用程序的性能。

回复收藏 0 原文