Java JVM 接受 XX:UseSSE 值吗?
我想比较多个 SSE 版本的应用程序的性能,但无法找到此 JVM 标志接受的值。我正在测试 0、1、3 和 4。我最不确定 4 是否被接受(我见过的所有示例最多…
如何使用 SSE 指令集对 2 个双精度型或 4 个浮点型进行绝对运算? (最高 SSE4)
这是我尝试使用 SSE 加速的示例 C 代码,两个数组的长度为 3072 个元素,带有双精度数,如果我不需要双精度数的精度,可以将其降低为浮点型。 double …
使用内部函数时出现未处理的异常
我有一个使用 VC++ 创建的应用程序,想要通过向量化一些操作来探索优化机会。 首先,我正在尝试以下代码: __m128i p1 p1.m128i_u32[0] = 1 p1.m128i_…
是否可以在 VC++ 中对乘法进行向量化?没有SSE4?
我想向量化乘法运算。我尝试使用 _mm_mul_epi32,但我的 CPU 仅支持“MMX、SSE (1,2,3,3S)、EM64T”指令。 有人可以告诉我是否可以尝试其他功能吗?…
C:尝试将变量存储在特定的 XMM 寄存器中
我正在开发一个涉及 SSE 内在函数和 XMM 寄存器的项目,并且我想使用提供的所有 16 个寄存器。我试图明确告诉编译器执行此操作,但它似乎不起作用。例…
用于克隆扩展 XMM 寄存器的 SSE 指令
是否有任何 SSE 指令(最高版本 4.2)可以自动用另一个 XMM 寄存器的四个字的值填充四个 XMM 寄存器? 示例:在单词 ABCD 上运行指令将填充四个 XMM …
使用 sse 执行内在函数
我目前正在开始使用 SSE。 我之前关于 SSE 的问题的答案(使用 SSE 将向量乘以常量)让我想到测试使用 _mm_mul_ps() 这样的内部函数和仅使用 * 这样的…
使用 SSE 将向量乘以常数
我有一些在 4D 向量上运行的代码,目前我正在尝试将其转换为使用 SSE。我在 64b linux 上同时使用 clang 和 gcc。 仅对向量进行操作就可以很好地理解…
如果在调试器中运行,则数据在 Visual Studio 中无法正确对齐
我与 SSE 合作已经有一段时间了,我也看到了一些一致性问题。然而,这超出了我的理解范围: 无论我是否 使用 F5(调试)运行程序或 我是否在调试器之…
帮助我改进更多 SSE2 代码
我正在寻求一些帮助来改进 core2 cpu 上的双线性缩放 sse2 代码, 在我的 Atom N270 和 i7 上,此代码比 mmx 代码快大约 2 倍。但在 core2 cpu 下它只…
使用 SSE 加速计算 - 存储、加载和对齐
在我的项目中,我实现了基本类 CVector。 此类包含指向原始浮点数组的 float* 指针。 该数组是使用标准 malloc() 函数动态分配的。 现在我必须使用这…
将常量浮点数加载到 SSE 寄存器中
我正在尝试找出一种将编译时常量浮点数加载到 SSE(2/3) 寄存器中的有效方法。我尝试过编写这样的简单代码, const __m128 x = { 1.0f, 2.0f, 3.0f, 4.…