Intel Core 2 Duo 预取

发布于 2024-08-12 04:04:47 字数 309 浏览 11 评论 0原文

有人有过在 Core 2 Duo 处理器上使用预取指令的经验吗？

我一直在一系列 P4 机器上成功使用（标准？）预取集（prefetchnta、prefetcht1 等），但是在 Core 上运行代码时2 Duo 似乎 prefetcht(i) 指令不执行任何操作，并且 prefetchnta 指令效率较低。

我评估性能的标准是当向量大小足够大以实现缓存外行为时，BLAS 1 向量-向量 (axpy) 操作的计时结果。

英特尔推出了新的预取指令吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

原来分手还会想你 2024-08-19 04:04:47

来自关于英特尔 64 和 IA-32 架构的英特尔参考文档，查看第 163 和 77 页：

奔腾 4 和英特尔至强处理器
基于英特尔NetBurst
微架构引入硬件
除了软件之外的预取
预取。硬件预取器
透明地操作以获取数据
和来自内存的指令流
无需程序员
干涉。随后的
微架构持续改进
并向硬件添加功能
预取机制。早些时候
硬件的实现
预取机制重点关注
预取数据和指令
内存到L2；最近的
实现提供了额外的
将数据从 L2 预取到的功能
L1。在英特尔 NetBurst 中
微架构、硬件
预取器可以跟踪8个独立的
流。
Pentium M 处理器还提供
数据的硬件预取器。它可以
跟踪 12 个独立的流
前进方向和 4 个流
向后的方向。处理器的
PREFETCHNTA 指令也取
64字节进入第一级数据
缓存而不污染
二级缓存。
英特尔酷睿单核和英特尔酷睿双核
处理器提供更先进的
数据的硬件预取器
奔腾 M 处理器。主要差异
总结如表2-10所示。