STL 算法中跨函数边界的循环重新排序

发布于 2024-10-08 01:10:44 字数 667 浏览 2 评论 0原文

为了简单起见，我们假设我有一个由 N 矩阵组成的向量，每行 M 行。我正在使用 STL std::accumulate 来计算所有矩阵的总和。我传递一个二元函子，它接受两个矩阵（通过引用）并返回它们的总和（通过引用）。完全披露：我正在使用 libstdc++ 并行模式。在函子内部，我逐个循环行以计算总和。

尽管每个矩阵都太大而无法放入缓存，但一行却非常适合。因此，对循环进行重新排序是有利的，以便外部循环在 M 行上索引，内部循环在 N 矩阵上索引。除了定义内联函子之外，我还能做些什么来鼓励这种跨函数边界循环重新排序。我当然可以重构代码，但我理想地希望保留使用 STL 算法所提供的简单结构。如果有一些特定于 gcc 的东西，我也不介意。

我实际上并没有处理矩阵，这只是一个例子，但同样的问题结构也适用。主要问题是性能问题。解释实际场景会太麻烦，但核心问题是：STL 的累积需要在嵌套循环之间进行排序，这对缓存不太友好，因为它试图在移动到下一个对象之前完成两个对象的添加。单个对象太大而无法保存在缓存中，但它的一部分可以。因此，如果一次计算一个“部分”的“加法”（针对所有对象），则可以加快执行速度。手动重新排序循环可以显着提高 FLOPS。但我理想地希望编译器进行重新排序，以便我可以在 STL 级别进行编码（尽可能）。所以我正在寻找技巧来做到这一点。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

娜些时光，永不杰束 2024-10-15 01:10:44

class Matrix;
class Row;
struct SumNRow {
  int _rowidx;
//  Row _tempRow; //For return by reference left out for simplicity
  SumNRow(int iRowIdx): _rowIdx(iRowIdx) {}
  Row operator(const Matrix & iMarix1, const Matrix iMatrix2) {
    return iMarix1[_rowIdx] + iMatrix2[_rowIdx];
  }
};

template<class MatrixIterator>
void sum(const MatrixIterator & iMarixStart, const MatrixIterator & iMatrixEnd, Matrix & oMarix) {
  for (int i = 0; i < iMarixStart->rowCount(); ++i) {
    oMarix[i]=std::accumulate(iMarixStart, iMatrixEnd, SumNRow(i));
  }
}

class Matrix;
class Row;
struct SumNRow {
  int _rowidx;
//  Row _tempRow; //For return by reference left out for simplicity
  SumNRow(int iRowIdx): _rowIdx(iRowIdx) {}
  Row operator(const Matrix & iMarix1, const Matrix iMatrix2) {
    return iMarix1[_rowIdx] + iMatrix2[_rowIdx];
  }
};

template<class MatrixIterator>
void sum(const MatrixIterator & iMarixStart, const MatrixIterator & iMatrixEnd, Matrix & oMarix) {
  for (int i = 0; i < iMarixStart->rowCount(); ++i) {
    oMarix[i]=std::accumulate(iMarixStart, iMatrixEnd, SumNRow(i));
  }
}

回复收藏 0 原文