有没有办法防止并行:: mclapply（）访问全球环境的内容？

发布于 2025-01-30 03:18:20 字数 853 浏览 2 评论 0原文

R函数Parallel :: mclapply（）是否可以在大型对象驻留在全球环境中的情况下以较大的rstudio会话方式运行？

我发现，当我使用mclapply（）在多个内核上运行分析时，消耗的RAM始终是（在我的情况下为GB的数十个）交互式RSTUDIO会话比我通过RScript运行完全相同的代码时。我的直觉是因为mclapply（）重复每个核心上的全局环境（我经常在全球环境中大小上有数十GB的对象），并且仅向RScript提供必需对象最小化这个开销。

我正在使用Linux AWS EC2机器，其中大量RAM（例如64 GB至128 GB）和相当大的CPU内核（例如，16-32），我经常发现运行mclapply在detectcores（）-1几乎立即互动地最大化RAM（在几秒钟内增加了数十GB），而通过RScript运行完全相同的代码几乎没有比调用mclapply（）。我已经观察到了各种无关分析的行为，因此我不包括可重复的示例。

要通过RScript运行mclapply调用，我首先将必要的数据对象保存到.rda文件，然后使用system（）运行通过rscript加载数据对象，运行mclapply（）调用的脚本，然后将输出保存到可以加载回到交互式会话中的文件中。

这是一个广为人知的问题吗？如果问题是，因为mclapply在每个核心上复制全局环境，是否有一种方法可以确保它只能访问分析所需的变量？

原文