第 3 页 - sse - 文江博客

sse

文章 8 浏览 95

SSE 中的矢量化分支表查找快速近似余弦

我正在制作一个供个人使用的小型游戏引擎。目标架构是 x86_64，最好使用 SSE2。正弦/余弦函数是核心部分之一，它是作为输入范围 [0, π / 2] 的 1024…

鸩远一方 2025-01-19 00:10:15 1 0

错误：来自类型“__m256i”的 static_cast 无效{aka ‘__vector(4) long long int’} 键入 ‘void*’

I'm trying to compile a piece of code where it calls uses static_cast to do something like the following: __m256i values; int64_t i = 1; sta…

拥抱影子 2025-01-17 21:05:20 4 0

将“movss xmm0，cs：dword_5B27420”替换为“movss xmm0，立即”

我在 Ida Pro 中有一个 linux .so 文件，并且有以下指令： movss xmm0, cs:dword_5B27420 是否可以使用与该指令相同或更少的字节数将固定值移动到 xmm…

一杯敬自由 2025-01-12 20:00:56 2 0

使用 AVX2 对嵌套循环进行矢量化

我正在尝试将内部循环矢量化为以下嵌套循环。首先，这是一种好的做法，还是应该避免尝试矢量化嵌套循环？下面的工作，它已经有一些基本的循环展开。 …

蓝礼 2025-01-12 08:16:29 6 0

SFENCE属于什么指令集？

我对 AMD64 (x86-64) 指令进行了大量研究，但它有点令人困惑。很多时候，官方 CPU 文档不会将指令指定为特定指令集的一部分，并且互联网有时会在特定…

甜柠檬 2025-01-11 22:04:07 4 0

打印 __m128i 变量

我正在尝试学习使用内在函数进行编码，下面是一个代码，它执行加法使用的编译器：icc #include #include int main() { __m128i a = _mm_set_epi32(1,…

往事风中埋 2025-01-11 21:57:16 3 0

具有 PCLMULQDQ 的快速 CRC 未反映

我正在尝试写一个 PCLMULQDQ 优化的 CRC-32 实现。特定的 CRC-32 变体适用于我不拥有的变体，但我试图以库形式提供支持。在 crcany model 形式中，它…

土豪 2025-01-11 13:38:57 3 0

如何在C6678 DSP上使用SSE指令集？

SSE 只能在 x86 x64 CPU 上使用。我在 TI C6678 上使用 SPEEXDSP 库时遇到问题。我从来没有使用过SSE指令，我尝试了很多方法，但无法让它在DSP上工作…

韵柒 2025-01-09 02:39:27 3 0

如何加载16个8位数据并将它们连接到4个无符号整数？

有没有什么优雅的方法来加载 16 个 8 位数据并将它们连接到 4 个 unsigned int ？如下所示：通过 _mm_load_si128() 将以下数组（16 epi8）加载到 __…

做个少女永远怀春 2025-01-08 16:55:20 6 0

如何在 Delphi 32 中探测计算机是否支持 SSE2？

C++ 方法是此处（在 Windows 下）。相同的答案，但在 Linux 下使用 GCC。据我了解，相关asm代码摘录： mov eax, 1 cpuid mov features, edx 我对BAS…

小梨窩很甜 2025-01-06 20:19:21 6 0

SIMD (AVX) 比较

用于比较 __m256 和 __m256i（AVX 指令集）的 gcc 内部函数的名称是什么？…

当梦初醒 2025-01-06 12:29:18 4 0

使用自动矢量化和 sse 加速对数据大小的依赖

我正在尝试使用英特尔编译器的自动矢量化和 sse 来加速一些代码。所有计算都是将某些结构体node_t转换为另一个结构体w_t（函数tr()和gen_tr()）。当…

没有心的人 2025-01-04 23:35:21 3 0

具有对齐成员的对象的动态分配 - 可能的解决方案？

我正在考虑使用 SSE 来加速我的项目中的一些代码。这通常需要我正在处理的数据进行 16 字节对齐。对于静态分配，我认为 __declspec(align(16)) 可以解…

糖粟与秋泊 2025-01-04 00:09:02 5 0

将 uint32 向量转换为 float 向量的最有效方法？

x86 没有从无符号 int32 转换为浮点的 SSE 指令。实现这一目标最有效的指令序列是什么？编辑：为了澄清，我想做以下标量运算的向量序列： unsigned …

信愁 2025-01-02 06:45:30 4 0

对齐和性能

用于比较 char * 和 memcmp 的例程 strcmp 对于其他所有内容，它们在以某种方式对齐的内存块（在 x86_64 上）上运行速度是否更快（如何？）？ libc 是…

属性 2025-01-01 03:53:38 3 0

共 17 页
上一页
1
2
3
4
5
下一页

友情链接

文江博客

sse

SSE 中的矢量化分支表查找快速近似余弦

错误：来自类型“__m256i”的 static_cast 无效{aka ‘__vector(4) long long int’} 键入 ‘void*’

将“movss xmm0，cs：dword_5B27420”替换为“movss xmm0，立即”

使用 AVX2 对嵌套循环进行矢量化

SFENCE属于什么指令集？

打印 __m128i 变量

具有 PCLMULQDQ 的快速 CRC 未反映

如何在C6678 DSP上使用SSE指令集？

如何加载16个8位数据并将它们连接到4个无符号整数？

如何在 Delphi 32 中探测计算机是否支持 SSE2？

SIMD (AVX) 比较

使用自动矢量化和 sse 加速对数据大小的依赖

具有对齐成员的对象的动态分配 - 可能的解决方案？

将 uint32 向量转换为 float 向量的最有效方法？

对齐和性能

热门标签

推荐作者

夢野间

百度③文鱼

小草泠泠

zhuwenyan

weirdo

坚持沉默

友情链接