推荐的 C++ 有哪些？用于大数据处理的并行化库

发布于 2024-09-26 08:44:44 字数 119 浏览 20 评论 0原文

当要处理的数据很大时，有人可以推荐在 C++ 中并行化的方法吗？我一直在阅读有关 openMP 和 Intel 的 TBB 在 C++ 中进行并行化的信息，但尚未尝试过它们。其中哪一个更适合并行数据处理？还有其他库/方法吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

本王不退位尔等都是臣 2024-10-03 08:44:44

“大型”和“数据处理”在这里涵盖了很多内容，如果没有更多信息，很难给出合理的答案。

如果数据处理是“令人尴尬的并行”——如果它涉及进行大量彼此完全独立的计算——那么就有一百万种东西可以工作，这只是找到与你的代码相匹配的东西的问题背景。

如果它不是令人尴尬的并行，但几乎如此 - 计算需要大量数据，但只是将其提炼成少量数字 - 就会有更少的选择，但仍然有很多选择。

如果计算比这更紧密地耦合 - 您需要处理器串联处理大数据块，那么您可能会陷入备用状态 - 如果编译器的 OpenMP 功能可以在单台机器上工作（有TBB 也一样，但通常对于数字处理 OpenMP 更快更容易）或 MPI（如果需要同时使用多台机器）。你提到了C++； Boost 有一个非常好的 MPI 层。

但考虑使用哪个库进行并行化可能首先想到的是问题的错误结局。在许多情况下，您不一定需要直接处理这些层。如果数字运算涉及大量线性代数（例如），则 PLASMA（对于多核机器 - http:// /icl.cs.utk.edu/plasma/ ）或 PetSC，它支持分布式内存机器，例如多台计算机（ http://www.mcs.anl.gov/petsc/petsc-as/ ）是不错的选择，它可以完全隐藏并行实现的实际细节来自你。其他类型的技术也有其他库。最好考虑一下您需要执行哪种分析，并查看现有工具包是否具有您需要的并行化量。只有当你确定答案是否定的时候，你才应该开始担心如何推出自己的产品。