有 CUDA 的 Lisp 扩展吗?
我刚刚注意到,WD Hillis 连接机的首批语言之一是 *Lisp,它是具有并行结构的 Common Lisp 的扩展。连接机是一台具有 SIMD 架构的大规模并行计算机,…
有没有好的 x86 双精度小矩阵 SIMD 库?
我正在寻找一个专注于图形小型 (4x4) 矩阵运算的 SIMD 库。那里有很多单精度,但我需要支持单精度和双精度。 我看过 Intel 的 IPP MX 库,但我更喜欢…
为什么 ARM NEON 不比普通 C++ 更快?
这是一个 C++ 代码: #define ARR_SIZE_TEST ( 8 * 1024 * 1024 ) void cpp_tst_add( unsigned* x, unsigned* y ) { for ( register int i = 0 i < …
使用联合将相同的内存分配给类成员变量
我正在尝试对现有的 Vector 类进行矢量化 class Vector { public: float X,Y,Z } 尝试在不影响访问这些成员变量的其他类的情况下对类成员进行矢量化 c…
使用内部函数时出现未处理的异常
我有一个使用 VC++ 创建的应用程序,想要通过向量化一些操作来探索优化机会。 首先,我正在尝试以下代码: __m128i p1 p1.m128i_u32[0] = 1 p1.m128i_…
是否可以在 VC++ 中对乘法进行向量化?没有SSE4?
我想向量化乘法运算。我尝试使用 _mm_mul_epi32,但我的 CPU 仅支持“MMX、SSE (1,2,3,3S)、EM64T”指令。 有人可以告诉我是否可以尝试其他功能吗?…
多个 Scala actor 服务于一项任务
我需要并行处理多个数据值(“SIMD”)。我可以使用 java.util.concurrent API (Executors.newFixedThreadPool()) 使用 Future 实例并行处理多个值: …
上证所 SIMD 的上限/下限
任何人都可以建议一种使用 SSE4.1 之前的 SIMD 计算 float 下限/上限的快速方法吗?我需要正确处理所有极端情况,例如,当我有一个无法用 32 位 int …
使用 SSE 将向量乘以常数
我有一些在 4D 向量上运行的代码,目前我正在尝试将其转换为使用 SSE。我在 64b linux 上同时使用 clang 和 gcc。 仅对向量进行操作就可以很好地理解…
帮助我改进更多 SSE2 代码
我正在寻求一些帮助来改进 core2 cpu 上的双线性缩放 sse2 代码, 在我的 Atom N270 和 i7 上,此代码比 mmx 代码快大约 2 倍。但在 core2 cpu 下它只…
gcc、simd 内在函数和快速数学概念
大家好:) 我正在尝试掌握一些有关浮点、SIMD/数学内在函数和 gcc 的快速数学标志的概念。更具体地说,我在 x86 cpu 上使用 MinGW 和 gcc v4.5.0。 我…
混合 SSE 整数/浮点 SIMD 指令时,性能是否会受到影响
我最近经常以内在函数的形式使用 x86 SIMD 指令 (SSE1234)。令我沮丧的是,SSE ISA 有几个简单的指令,仅适用于浮点数或整数,但理论上对两者的性能应…
C++ 中 SSE/AVX 的 x86 CPU 调度
我有一个算法,该算法受益于 SSE(2) 内在函数的手动优化。此外,该算法未来还将能够受益于256位AVX寄存器。 最佳方法是什么 我的问题是在编译时注册我…