第 2 页 - sse - 文江博客

投稿关注

sse

文章 8 浏览 95

RSQRTSS是否打破对目标寄存器的依赖性？

使用 uica 我为以下代码制作了一个跟踪表。 cvtsi2ss xmm0, eax addss xmm0, xmm0 您可以看到每个 cvtsi2ss 必须等待先前的迭代完成，因为它取决于 xm…

秋日私语 2025-02-04 05:11:11 2 0

从ARM NEON到Intel Interins，以获得8x UINT8_T的绝对差异的总和

我正在尝试使用ARM NEON INTENSICS转换一些代码，以使用Intel Interinsics。我立即被卡住了，并试图找到适当的英特尔内在物质来替代霓虹灯内在的。 M…

庆幸我还是我 2025-02-04 04:09:22 2 0

手动设置MXCSR异常标志，并触发浮点异常（如果适用）

如果未掩盖此例外，我如何通过指令和来设置SSE浮点异常，并触发此浮点陷阱的执行？…

兰花执着 2025-02-03 11:08:33 4 0

为什么SIMD在称为SIMD时具有单个数据指令？

我一直在想..它被称为SIMD，如单个指令中的多重数据。那么，为什么它具有单个数据指令？例如， vaddss 是多个数据 vaddps 的单个数据。几乎每个SIMD…

野の 2025-02-02 14:04:23 3 0

访问Visual Studio与Xcode中__M128D内在的组件不以相同的方式工作吗？

以下代码与Xcode合作： const __m128d source = { x, y }; const double destination = source[0]; // Read the "x" from "source" 在Visual Studio的…

鸠魁 2025-01-31 07:43:08 2 0

使用SSE / AVX intinisics时体系结构的效果

我想知道编译器如何处理内在。如果使用SSE2 Intrinsics（使用 #include＆lt; emmintrin.h＆gt; ），并使用 -mavx flag进行编译。编译器将产生什么？…

请止步禁区 2025-01-29 02:22:19 3 0

为什么SSE/AVX缺乏直接价值的负载？

据我所知，SSE/AVX中没有任何指示可以立即加载。一个解决方法是将值加载到普通寄存器和 movd ，但是编译器似乎认为这比单个标量值即使从内存中加载也…

烟雨扶苏 2025-01-26 22:07:07 2 0

如何利用SIMD功能来使RGBA像素的8位组件之间的平方差异总和？

以下代码试图提取像素值的红色，绿色和蓝色通道，并用另一组RGB值执行算术。看来代码在逻辑周围试图执行平方和添加的逻辑很慢。可以用更快的版本替…

ペ泪落弦音 2025-01-26 17:37:27 3 0

进行水平SSE矢量总和（或其他还原）的最快方法

给定三个（或四个）浮子的向量。总结最快的方法是什么？ SSE（移动，洗牌，添加，movd）总是比x87快吗？ SSE3中的水平添加说明值得吗？搬到FPU，然后…

淡忘如思 2025-01-26 14:24:07 1 0

SIMD-如何添加来自不同元素宽度的2个向量的相应值（char或uint8_t添加到int）

请告诉我如何从同一类型的SIMD向量中添加值，但是这些值本身，这些值本身是由这些SIMD向量中不同数量的字节占据的。这是一个示例： int main() { //-…

街角迷惘 2025-01-25 20:39:41 1 0

AVX除以__M256I将32位整数挤满了两个（无AVX2）

我正在寻找最快的方法，将包装的32位整数的 __ M256i 除以两个（又称一个换档）使用AVX。我无法访问AVX2。据我所知，我的选择是：下载到用于签名的…

星星的轨迹 2025-01-25 10:20:10 3 0

为什么添加XORP指令会使用CVTSI2SS和添加〜5倍的速度使此功能更快？

我正在使用Google基准进行优化功能，并遇到了我的代码在某些情况下出乎意料地放慢速度的情况。我开始尝试它，查看汇编的组件，并最终提出了一个最小的…

╰つ倒转 2025-01-23 23:19:42 2 0

用X64 Simd换nibble

我知道 byte shuffling 指令，但是我想对Nibbles做同样的事情（4位值），我想用一个64位单词将16个小吃洗净。我的洗牌索引也被存储为16个小吃。最有效…

眼泪也成诗 2025-01-22 13:50:22 1 0

计算 128 位 avx 向量中唯一值的数量，或检测所有元素是否相等？

我正在优化代码库中的热路径，并且已经转向矢量化。请记住，我对所有这些 SIMD 内容还很陌生。这是我试图解决的问题， inline int count_unique(int c…

予囚 2025-01-20 13:25:08 2 0

慢速SIMD性能 - 无内线

考虑以下计算 i32 数组总和的示例：示例 1：简单的 for 循环 pub fn vec_sum_for_loop_i32(src: &[i32]) -> i32 { let mut sum = 0; for c in src { …

廻憶裏菂餘溫 2025-01-20 03:56:37 4 0

共 17 页
上一页
1
2
3
4
5
下一页

夢野间

文章 0 评论 0

关注

百度③文鱼

文章 0 评论 0

关注

小草泠泠

文章 0 评论 0

关注

zhuwenyan

文章 0 评论 0

关注

weirdo

文章 0 评论 0

关注

坚持沉默

文章 0 评论 0

友情链接

文江博客

sse

RSQRTSS是否打破对目标寄存器的依赖性？

从ARM NEON到Intel Interins，以获得8x UINT8_T的绝对差异的总和

手动设置MXCSR异常标志，并触发浮点异常（如果适用）

为什么SIMD在称为SIMD时具有单个数据指令？

访问Visual Studio与Xcode中__M128D内在的组件不以相同的方式工作吗？

使用SSE / AVX intinisics时体系结构的效果

为什么SSE/AVX缺乏直接价值的负载？

如何利用SIMD功能来使RGBA像素的8位组件之间的平方差异总和？

进行水平SSE矢量总和（或其他还原）的最快方法

SIMD-如何添加来自不同元素宽度的2个向量的相应值（char或uint8_t添加到int）

AVX除以__M256I将32位整数挤满了两个（无AVX2）

为什么添加XORP指令会使用CVTSI2SS和添加〜5倍的速度使此功能更快？

用X64 Simd换nibble

计算 128 位 avx 向量中唯一值的数量，或检测所有元素是否相等？

慢速SIMD性能 - 无内线

热门标签

推荐作者

夢野间

百度③文鱼

小草泠泠

zhuwenyan

weirdo

坚持沉默

友情链接