avx

投稿关注

文章 0 浏览 5

矢量类库：解决使用 vec4d 时的问题

这是一段导致我出现问题/错误的简化代码（Vec4d 来自 Agner Fog 库 VCL） #define AVX256_ALIGNED_MALLOC(type,size) (type *)_aligned_malloc(size *…

南城旧梦 2025-01-13 00:26:24 1 0

使用 AVX2 对嵌套循环进行矢量化

我正在尝试将内部循环矢量化为以下嵌套循环。首先，这是一种好的做法，还是应该避免尝试矢量化嵌套循环？下面的工作，它已经有一些基本的循环展开。 …

蓝礼 2025-01-12 08:16:29 2 0

按位异或运算和 popcount 的 AVX 性能较慢

我刚开始编写一些基于 avx 内在函数的代码，因此需要一些帮助来理解我的观察结果是否符合预期。我有两种实现距离计算的方法，这两种方法都采用 2 个浮…

剪不断理还乱 2025-01-09 05:44:38 2 0

gcc 编译器开关 (-mavx -mavx2 -mavx512f) 到底有什么作用？

我在 C/C++ 代码中明确使用了英特尔 SIMD 内在扩展。为了编译代码，我需要在命令行上指定 -mavx、-mavx512 或类似的内容。我对这一切都很满意。然而…

挖个坑埋了你 2025-01-09 00:30:32 1 0

AVX 优化代码无法在 Linux redhat 5.6 上运行

我有一些简单的测试代码，我正在尝试生成 AVX 优化代码，以便在 Linux Redhat 5.6 上使用 icc v12.1。代码如下所示： int main() { double sum = 0.0;…

别再吹冷风 2025-01-03 23:43:54 1 0

md5 矢量化 sse* && AVX

我正在寻找有关使用矢量化实现 md5 算法的信息。我对 SSE* 和 AVX 指令的详细信息感兴趣。是否有支持矢量化的现成库？…

已下线请稍等 2025-01-02 16:37:40 0 0

AVX2 中的 _mm_alignr_epi8 (PALIGNR) 等效项

在 SSE3 中，PALIGNR 指令执行以下操作： PALIGNR 将目标操作数（第一个操作数）和源操作数（第二个操作数）连接成一个中间组合，以字节粒度将组合右…

彼岸花ソ最美的依靠 2024-12-21 14:12:44 2 0

使用 Intel AVX 存储打包双精度向量中的各个双精度值

我正在使用 Intel AVX 指令的 C 内在函数编写代码。如果我有一个打包的双向量（a __m256d），将它们存储到内存中不同位置的最有效方法（即最少的操作…

漫雪独思 2024-12-20 11:08:18 2 0

VS2010 SP1是否只支持部分AVX指令集？

Microsoft 声明 VS2010 支持全套 AVX 指令： http://blogs.msdn.com/b/vcblog/archive/2009/11/02/visual-c-code- Generation-in-visual-studio-2010.…

栖迟 2024-12-11 08:28:27 3 0

传递包含 SSE/AVX 值的类型

假设我有以下内容 struct A { __m256 a; } struct B { __m256 a; float b; } 在硬核循环中，以下哪一项通常更好（如果有的话，为什么）？ void f0(A a…

差↓一点笑了 2024-12-11 06:29:56 3 0

如何在 Sandy Bridge 上将一系列整数中的位快速计数到单独的容器中？

更新：请阅读代码，它不是关于计算一个 int 中的位数是否可以使用一些聪明的汇编器来提高以下代码的性能？ uint bit_counter[64]; void Count(uint64…

对岸观火 2024-12-10 11:39:34 4 0

如何交换256位AVX（YMM）寄存器中的低128位和高128位

我正在移植 SSE SIMD 代码以使用 256 位 AVX 扩展，但似乎找不到任何可以混合/洗牌/移动高 128 位和低 128 位的指令。背景故事：我真正想要的是 VHA…

丑丑阿 2024-12-01 09:54:07 2 0

新的 Haswell AVX“聚集”有哪些对齐限制？指示？

我正在查看 AVX 编程参考。新的 Haswell 指令包括一些期待已久的“收集”负载。但是，我无法弄清楚索引数据项的对齐限制是什么。参考文献的第 2.5 …

瞄了个咪的 2024-11-18 04:24:51 5 0

使用 const 非整数指数优化 pow() ？

我的代码中有一些热点，其中 pow() 占用了大约 10-20% 的执行时间。我对 pow(x,y) 的输入非常具体，所以我想知道是否有一种方法可以滚动两个 pow() …

少跟Wǒ拽 2024-11-17 06:10:54 6 0

如何检查CPU是否支持SSE3指令集？

以下代码是否有效用于检查 CPU 是否支持 SSE3 指令集？使用 IsProcessorFeaturePresent( ) 功能显然在 Windows XP 上不起作用。 bool CheckSSE3() { …

枯寂 2024-11-09 11:12:48 8 0

共 2 页
1
2
下一页

友情链接

文江博客

avx

矢量类库：解决使用 vec4d 时的问题

使用 AVX2 对嵌套循环进行矢量化

按位异或运算和 popcount 的 AVX 性能较慢

gcc 编译器开关 (-mavx -mavx2 -mavx512f) 到底有什么作用？

AVX 优化代码无法在 Linux redhat 5.6 上运行

md5 矢量化 sse* && AVX

AVX2 中的 _mm_alignr_epi8 (PALIGNR) 等效项

使用 Intel AVX 存储打包双精度向量中的各个双精度值

VS2010 SP1是否只支持部分AVX指令集？

传递包含 SSE/AVX 值的类型

如何在 Sandy Bridge 上将一系列整数中的位快速计数到单独的容器中？

如何交换256位AVX（YMM）寄存器中的低128位和高128位

新的 Haswell AVX“聚集”有哪些对齐限制？指示？

使用 const 非整数指数优化 pow() ？

如何检查CPU是否支持SSE3指令集？

热门标签

推荐作者

知足的幸福

我一向站在原地

慕烟庭风

秉忠贞之诚守退让之实

小兔几

mb_3y7WUgWY

友情链接