sse

sse

文章 8 浏览 91

混合 SSE 整数/浮点 SIMD 指令时,性能是否会受到影响

我最近经常以内在函数的形式使用 x86 SIMD 指令 (SSE1234)。令我沮丧的是,SSE ISA 有几个简单的指令,仅适用于浮点数或整数,但理论上对两者的性能应…

花伊自在美 2024-10-17 03:52:08 4 0

MXCSR控制寄存器的范围?

我想知道 MXCSR 控制寄存器中存储的值的生命周期是多少(包括非正规浮点数的 FTZ 和 DAZ 配置):它是否在线程范围内,或者是否在线程范围内CPU/FPU …

倾城泪 2024-10-16 19:08:42 5 0

从 /proc/cpuinfo 为 GCC 构建 sse 开关

我有一个 Makefile,我想解析 /proc/cpuinfo 中的标志并构建可用的 sse 指令集列表以传递给 gcc (-msse -msse2 等)。这是迄今为止我想出的最好的方…

烈酒灼喉 2024-10-16 08:29:09 2 0

在 gcc 中使用 struct 作为 SSE 向量类型?

GCC 中是否可以使用结构体或类作为 SSE 指令的向量类型? 类似于: typedef struct vfloat __attribute__((vector_size(16))) { float x,y,z,w } vflo…

一杆小烟枪 2024-10-16 04:22:50 6 0

SSE归一化比简单近似慢?

我正在尝试标准化 4d 向量。 我的第一个方法是使用 SSE 内在函数 - 它可以将我的向量算术速度提高 2 倍。 这是基本代码:(v.v4 是输入)(使用 GCC)…

愛上了 2024-10-15 11:55:22 5 0

C 程序的可变运行时间

我的(simd)实现需要不同的时间,尽管它是针对固定输入运行的。运行时间在 1 亿个时钟周期到 1.2 亿个时钟周期之间变化。该程序调用一个函数大约 600…

剧终人散尽 2024-10-15 03:30:24 3 0

C++ 中 SSE/AVX 的 x86 CPU 调度

我有一个算法,该算法受益于 SSE(2) 内在函数的手动优化。此外,该算法未来还将能够受益于256位AVX寄存器。 最佳方法是什么 我的问题是在编译时注册我…

最后的乘客 2024-10-14 02:06:53 5 0

使用SSE加速lower_bound函数

在我目前正在从事的一个项目中,我经常需要在排序数组中找到可以插入元素的最低可能索引(如 C++ 中的 std::lower_bound )。 使用 SSE 来加速我的算…

我一直都在从未离去 2024-10-13 18:21:06 1 0

近似 log10[x^k0 + k1]

问候。我试图近似函数 Log10[x^k0 + k1],其中 .21 &lt k0< 21、0< k1< ~2000,x为整数&lt2000 2^14。 k0 &amp k1 是常数。出于实际目的,您可以假…

孤君无依 2024-10-12 09:11:28 6 0

gcc 中的 SSE(SIMD 扩展)支持

我看到如下代码: #include "stdio.h" #define VECTOR_SIZE 4 typedef float v4sf __attribute__ ((vector_size(sizeof(float)*VECTOR_SIZE))) // vec…

甜味拾荒者 2024-10-10 11:24:30 3 0

改进 SSE (SSSE3) YUV 到 RGB 代码

我正在寻找优化我为将 YUV 转换为 RGB(平面和打包 YUV 函数)而编写的一些 SSE 代码。 我目前使用的是 SSSE3,但如果后续 SSE 版本中有有用的功能,…

秋凉 2024-10-09 14:11:02 5 0

_mm_ 类型函数的等效 C 代码

什么是简单的等效 C 代码来克服 __ 函数,如 _mm_store_ps、_mm_add_ps 等。请通过具有等效 C 代码的示例指定任何函数。 为什么使用这些函数?…

往日情怀 2024-10-09 12:55:01 3 0

如何让下面的代码更快

int u1, u2 unsigned long elm1[20], _mulpre[16][20], res1[40], res2[40] 64 bits long res1, res2 initialized to zero. l = 60 while (l) { for (…

浅笑轻吟梦一曲 2024-10-08 09:19:09 6 0

SSE2:双精度对数函数

我需要日志函数的开源(无许可证限制)实现,带有签名的东西 __m128d _mm_log_pd(__m128d) 可以在英特尔短向量数学库(ICC的一部分)中找到,但ICC既…

春风十里 2024-10-08 01:35:25 5 0

SIMD 代码与标量代码

以下循环执行数百次。 &lt代码&gt elma 和 elmc 都是无符号长(64 位)数组,res1 和 res2 也是如此。 unsigned long simdstore[2] __m128i *p, simda…

梦纸 2024-10-07 03:19:24 4 0
更多

推荐作者

1CH1MKgiKxn9p

文章 0 评论 0

ゞ记忆︶ㄣ

文章 0 评论 0

JackDx

文章 0 评论 0

信远

文章 0 评论 0

yaoduoduo1995

文章 0 评论 0

霞映澄塘

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文