F# 中多核并行缓存局部性的最佳实践

发布于 2024-11-10 18:51:30 字数 736 浏览 8 评论 0原文

我正在研究 F# 中的多核并行性。我不得不承认不变性确实有助于编写正确的并行实现。然而，当核心数量增加时，很难实现良好的加速和良好的可扩展性。例如，我对快速排序算法的经验是，许多尝试以纯函数方式实现并行快速排序并使用 List 或 Array 作为表示形式都失败了。对这些实现的分析表明，与顺序版本相比，缓存未命中的数量显着增加。然而，如果使用数组内部的变异来实现并行快速排序，则可以获得很好的加速。因此，我认为突变可能是优化多核并行性的一个很好的实践。

我相信缓存局部性是函数式语言中多核并行的一大障碍。函数式编程涉及创建许多短暂的对象；破坏这些对象可能会破坏 CPU 高速缓存的一致性属性。我看到了许多如何提高命令式语言中的缓存局部性的建议，例如，此处和此处。但我不清楚它们在函数式编程中是如何完成的，特别是对于经常出现的递归数据结构，如树等。

是否有任何技术可以提高不纯函数语言（特别是 F#）中的缓存局部性？任何建议或代码示例都非常受欢迎。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

纵情客 2024-11-17 18:51:31

据我所知，缓存局部性（多线程或其他）的关键是

将工作单元保留在适合缓存的连续 RAM 块中

。

尽可能避免使用物体
- 对象在堆上分配，并且可能会被喷射到各处，具体取决于堆碎片等。
- 您对对象的内存布局的控制基本上为零，以至于 GC 可能随时移动它们。
使用数组。大多数编译器将数组解释为连续的内存块。
- 其他集合数据类型可能会将数据分布到各处 - 例如，链表由指针组成。
使用基本类型的数组。对象类型是在堆上分配的，因此对象数组只是指向可能分布在整个堆上的对象的指针数组。
如果不能使用基元，请使用结构数组。结构体的字段在内存中按顺序排列，并被 .NET 编译器视为基元。
计算出要执行该操作的计算机上的缓存大小
- CPU 具有不同大小的二级缓存
- 谨慎的做法是，将代码设计为可根据不同的缓存大小进行扩展
- 或者更简单地说，编写适合代码运行的最低通用缓存大小的代码
弄清楚需要什么坐在靠近每个数据的位置
- 实际上，您不会将整个工作集放入二级缓存
- 检查（或重新设计）您的算法，以便您使用的数据结构保存“下一个”所需的数据，且接近之前所需的数据。

在实践中，这意味着您最终可能使用的数据结构在理论上并不是计算机科学的完美示例 - 但这没关系，计算机在理论上也不是计算机科学的完美示例。

关于该主题的一篇很好的学术论文是使用复制进行高速缓存高效字符串排序

回复收藏 0 原文

风启觞 2024-11-17 18:51:31

在 F# 中允许函数内的可变性是一件好事，但它只能在优化代码时使用。纯函数式风格通常会产生更直观的实现，因此是首选。

以下是快速搜索返回的结果：Haskell 中的并行快速排序。让我们将关于性能的讨论集中在性能上。选择一个处理器，然后使用特定的算法对其进行测试。

为了不具体回答你的问题，我想说 Clojure 的方法实现 STM 可能是一般情况下如何解耦执行路径的一课多核处理器并改善缓存局部性。但只有当读取次数超过写入次数时它才有效。

回复收藏 0 原文

抱猫软卧 2024-11-17 18:51:31

我不是并行性专家，但无论如何这是我的建议。

我希望本地可变的方法（其中每个核心都分配一个可读取和写入的内存区域）将始终击败纯方法。
尝试制定您的算法，使其在连续的内存区域上顺序工作。这意味着，如果您正在使用图形，则可能值得将节点“展平”为数组并在处理之前用索引替换引用。无论缓存局部性问题如何，这始终是 .NET 中的一种很好的优化技术，因为它有助于避免垃圾收集。

回复收藏 0 原文

瀞厅☆埖开 2024-11-17 18:51:31

一个很好的方法是将工作分成更小的部分，并迭代每个核心上的每个部分。

我首先选择的一个选择是在并行之前寻找单个核心上的缓存局部性改进，这应该只是为每个核心再次细分工作的问题。例如，如果您正在使用大型矩阵进行矩阵计算，那么您可以将计算分成较小的部分。

这是一个很好的例子：性能缓存局部性

Tomas Petricek 的书Real Work 函数式编程中有一些很棒的章节，查看第 14 章编写并行函数式程序，您可能会发现特别感兴趣的二叉树的并行处理。

回复收藏 0 原文

别闹i 2024-11-17 18:51:31

要编写可扩展的应用程序，缓存位置对于应用程序的速度至关重要。 Scott Meyers 演讲很好地解释了这些原理。不变性不能很好地适应缓存局部性，因为您在内存中创建新对象，这会迫使 CPU 再次从新对象重新加载数据。
正如演讲中所指出的，即使在现代 CPU 上，L1 缓存也只有 32 KB 大小，可供所有内核之间共享代码和数据。如果您使用多线程，您应该尝试消耗尽可能少的内存（告别不变性）以保持最快的缓存。 L2 缓存约为 4-8 MB，与您尝试排序的数据相比，该缓存要大得多，但仍然很小。

如果您设法编写一个消耗尽可能少内存（数据缓存局部性）的应用程序，您可以获得 20 或更多的加速。但如果您针对 1 个核心进行管理，则扩展到更多核心很可能会损害性能，因为所有核心都在竞争相同的 L2 缓存。

为了充分利用它，C++ 人员使用 PGA（配置文件引导优化），这允许他们分析其应用程序，该应用程序用作编译器的输入数据，以便为特定用例发出更好的优化代码。

在托管代码中，您可以在一定程度上得到更好的结果，但由于影响缓存局部性的因素太多，因此在现实世界中，由于总缓存局部性，您不太可能看到 20 的加速。这仍然是使用分析数据的 C++ 和编译器的制度。

回复收藏 0 原文