通过启动多个进程而不是使用线程来扩展 ruby 脚本

发布于 2024-09-01 02:19:18 字数 208 浏览 5 评论 0原文

我想增加执行网络 I/O 的脚本（抓取器）的吞吐量。我不想在 ruby 中使其成为多线程（我使用默认的 1.9.1 解释器），而是想启动多个进程。那么，是否有一个系统可以执行此操作，以便我可以跟踪何时完成重新启动它，以便我随时运行 X 个数字。另外，有些将使用不同的命令参数运行。我正在考虑编写一个 bash 脚本，但如果已经存在一种在 Linux 上执行此类操作的方法，这听起来可能是一个坏主意。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

咆哮 2024-09-08 02:19:19

我建议不要分叉，而是使用 EventMachine （以及优秀的 em-http-request（如果您使用的是 HTTP）。管理多个进程可能有点困难，甚至比处理多个线程还要复杂，但相比之下，沿着事件路径走要简单得多。由于您主要想做网络 IO，其中主要包括等待，因此我认为事件方法也可以扩展，或者比分叉或线程更好。最重要的是：它将需要更少的代码，并且更具可读性。

即使您决定为每个任务运行单独的进程，EventMachine 也可以帮助您使用 EventMachine.popen 等工具编写管理子进程的代码。

最后，如果您想在没有 EventMachine 的情况下执行此操作，请阅读 IO 的文档。 popen，Open3.popen 和 Open4.popen。它们都或多或少地执行相同的操作，但允许您访问子进程的 stdin、stdout、stderr（Open3、Open4）和 pid（Open4）。

回复收藏 0 原文

紫轩蝶泪 2024-09-08 02:19:19

您可以尝试 fork http://ruby-doc.org/core/classes/ Process.html#M003148

您可以获取返回的PID并查看该进程是否再次运行。

如果你想管理 IO 并发。我建议你使用EventMachine。

回复收藏 0 原文

爱的十字路口 2024-09-08 02:19:19

您可以

实现（或找到等效的 gem）一个 ThreadPool（在您的情况下是 ProcessPool），或者
准备一个数组，假设要处理 1000 个任务，将其分成 10 个块，每块 100 个任务（10 是您要启动的并行进程数），并启动 10 个进程，其中每个进程立即接收 100 个要处理的任务。这样，您就不需要启动 1000 个进程并控制其中同时工作的进程不超过 10 个。

回复收藏 0 原文

~没有更多了~