当前位置：文江博客话题详情

LAPACK/BLAS 与简单的“for”比较循环

发布于 2024-10-18 11:20:14 字数 208 浏览 7 评论 0原文

我想将一段涉及大量向量和矩阵计算的代码迁移到 C 或 C++，目标是尽可能加快代码速度。

C 代码中使用 for 循环进行的线性代数计算是否与使用 LAPACK/BLAS 的计算一样快，或者使用这些库有一些独特的加速？

换句话说，简单的 C 代码（使用 for 循环等）是否可以像使用 LAPACK/BLAS 的代码一样快地执行线性代数计算？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

云淡风轻 2024-10-25 11:20:14

供应商提供的 LAPACK / BLAS 库（已经提到了 Intel 的 IPP/MKL，但也有 AMD 的 ACML，其他 CPU 供应商如 IBM/Power 或 Oracle/SPARC 也提供了等效的库）通常针对特定的 CPU 功能进行了高度优化显着提高大型数据集的性能。

不过，通常情况下，您需要对非常特定的小数据进行操作（例如，4x4 矩阵或 4D 点积，即 3D 几何处理中使用的操作），对于此类事物，BLAS/LAPACK是多余的，因为这些子例程完成了初始测试，根据数据集的属性选择哪些代码路径。在这些情况下，简单的 C/C++ 源代码（可能使用 SSE2...4 内在函数和/或编译器生成的向量化）可能会击败 BLAS/LAPACK。
例如，这就是为什么英特尔拥有两个库 - 用于大型线性代数数据集的 MKL 和用于小型（图形向量）数据集的 IPP。

从这个意义上说，

您的数据集到底是什么？
矩阵/向量大小是多少？
什么线性代数运算？

另外，关于“简单的 for 循环”：让编译器有机会为您进行矢量化。即：

for (i = 0; i < DIM_OF_MY_VECTOR; i += 4) {
    vecmul[i] = src1[i] * src2[i];
    vecmul[i+1] = src1[i+1] * src2[i+1];
    vecmul[i+2] = src1[i+2] * src2[i+2];
    vecmul[i+3] = src1[i+3] * src2[i+3];
}
for (i = 0; i < DIM_OF_MY_VECTOR; i += 4)
    dotprod += vecmul[i] + vecmul[i+1] + vecmul[i+2] + vecmul[i+3];

可能比纯表达式更好地提供给向量化编译器

for (i = 0; i < DIM_OF_MY_VECTOR; i++) dotprod += src1[i]*src2[i];

。在某些方面，您所说的使用 for 循环进行计算将会产生重大影响。
如果你的向量维度足够大，BLAS 版本

dotprod = CBLAS.ddot(DIM_OF_MY_VECTOR, src1, 1, src2, 1);

将是更清晰的代码并且可能更快。

在参考方面，您可能会感兴趣：

英特尔数学内核库文档< /a>（LAPACK / BLAS 和其他针对 Intel CPU 进行优化的）
Intel 性能基元文档（针对小向量/几何处理进行了优化）
AMD 核心数学库（LAPACK / BLAS 和其他 AMD CPU）
Eigen 库（“更好的”线性代数接口）

Vendor-provided LAPACK / BLAS libraries (Intel's IPP/MKL have been mentioned, but there's also AMD's ACML, and other CPU vendors like IBM/Power or Oracle/SPARC provide equivalents as well) are often highly optimized for specific CPU abilities that'll significantly boost performance on large datasets.

Often, though, you've got very specific small data to operate on (say, 4x4 matrices or 4D dot products, i.e. operations used in 3D geometry processing) and for those sort of things, BLAS/LAPACK are overkill, because of initial tests done by these subroutines which codepaths to choose, depending on properties of the data set. In those situations, simple C/C++ sourcecode, maybe using SSE2...4 intrinsics and/or compiler-generated vectorization, may beat BLAS/LAPACK.
That's why, for example, Intel has two libraries - MKL for large linear algebra datasets, and IPP for small (graphics vectors) data sets.

In that sense,

what exactly is your data set ?
What matrix/vector sizes ?
What linear algebra operations ?

Also, regarding "simple for loops": Give the compiler the chance to vectorize for you. I.e. something like:

for (i = 0; i < DIM_OF_MY_VECTOR; i += 4) {
    vecmul[i] = src1[i] * src2[i];
    vecmul[i+1] = src1[i+1] * src2[i+1];
    vecmul[i+2] = src1[i+2] * src2[i+2];
    vecmul[i+3] = src1[i+3] * src2[i+3];
}
for (i = 0; i < DIM_OF_MY_VECTOR; i += 4)
    dotprod += vecmul[i] + vecmul[i+1] + vecmul[i+2] + vecmul[i+3];

might be a better feed to a vectorizing compiler than the plain

for (i = 0; i < DIM_OF_MY_VECTOR; i++) dotprod += src1[i]*src2[i];

expression. In some ways, what you mean by calculations with for loops will have a significant impact.
If your vector dimensions are large enough though, the BLAS version,

dotprod = CBLAS.ddot(DIM_OF_MY_VECTOR, src1, 1, src2, 1);

will be cleaner code and likely faster.

On the reference side, these might be of interest:

Intel Math Kernel Libraries Documentation (LAPACK / BLAS and others optimized for Intel CPUs)
Intel Performance Primitives Documentation (optimized for small vectors / geometry processing)
AMD Core Math Libraries (LAPACK / BLAS and others for AMD CPUs)
Eigen Libraries (a "nicer" linear algebra interface)

回复收藏 0 原文