当前位置：文江博客话题详情

MKL库中BLAS sdot操作实现

发布于 2025-01-06 21:53:52 字数 233 浏览 3 评论 0原文

我测试了 BLAS sdot 接口的单个精确浮点点运算。我发现 Intel MKL 库的结果与 http://netlib 中给出的 BLAS fortran 代码的结果略有不同。 org/blas/. MKL 看起来更准确。

我只是想知道MKL有什么优化吗？或者说MKL是如何实现的，使其更加准确？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

说谎友 2025-01-13 21:53:52

好吧，由于 MKL 是由特定 CPU 供应商专门为他们自己的产品编写的，我想他们可以比参考实现使用更多关于底层机器的知识。

第一个想法可能是他们使用优化的汇编，并始终将运行总和保留在 x87 80 位浮点堆栈上，而不在每次迭代中将其四舍五入到 32 位。或者也许他们使用 SSE(2) 并以双精度计算整个总和（从性能角度来看，这对于加法和乘法不会有太大影响）。或者他们可能使用完全不同的计算或黑魔法机器的技巧。

关键是，这些例程对于特定硬件的优化程度比基本参考实现要高得多，但在没有看到它们的实现的情况下，我们无法说出具体的优化方式。上述想法只是简单的方法。

回复收藏 0 原文

~没有更多了~

关于作者

孤者何惧

暂无简介

文章

28 人气

关注发私信

李珊平

文章 0 评论 0

关注

Quxin

文章 0 评论 0

关注

范无咎

文章 0 评论 0

关注

github_ZOJ2N8YxBm

文章 0 评论 0

关注

若言

文章 0 评论 0

关注

南…巷孤猫

文章 0 评论 0

友情链接

文江博客

MKL库中BLAS sdot操作实现

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者