第 5 页 - simd - 文江博客

投稿关注

simd

文章 0 浏览 6

如何让 ICC 编译器在内循环中生成 SSE 指令？

我有一个像这样的内部循环 for(i=0 ;i

要走干脆点 2024-11-18 21:46:13 5 0

arm_neon.h 是否缺少所有 float16_t 类型？

我正在使用 NEON SIMD 指令编写 Android 应用程序的一部分，针对 Cortex A8 处理器。根据本参考手册，NEON支持16位和 32 位浮点数，即 float16_t 和 f…

远昼 2024-11-18 20:58:07 4 0

SIMD 常量浮点数

我一直在尝试使用微软的 sse 内在函数来优化一些代码。优化代码时最大的问题之一是每当我想使用常量时就会发生 LHS。似乎有一些关于生成某些常量的信…

白日梦 2024-11-18 10:33:45 3 0

哪一个更快？

我在 gcc 4.4.3 中使用 SSE2。在我的程序中，我需要使用 128 位 SIMD 寄存器的至少 (0 - 7) 8 位。请建议我可以快速检索 8 位的方法。我尝试使用 _mm…

梦毁影碎の 2024-11-16 18:48:55 4 0

调整麻省理工学院的比特计数算法来并行计算单词数？

我想使用众所周知的 MIT 位计数算法的一个版本，使用 SSE2 指令来计算 Conway 生命游戏中的邻居。这是 c 中的 MIT 位计数，扩展为 count bitcounts >…

初相遇 2024-11-16 10:19:44 7 0

在并行位片代码中实现快速计数器

我正在寻找计数器的优化实现，可能类似于格雷码，这将使我能够快速单步遍历位片数组中的数字。假设我有这个数组： _m256 header[640]; 我需要不断更…

人间☆小暴躁 2024-11-10 04:10:42 1 0

有 CUDA 的 Lisp 扩展吗？

我刚刚注意到，WD Hillis 连接机的首批语言之一是 *Lisp，它是具有并行结构的 Common Lisp 的扩展。连接机是一台具有 SIMD 架构的大规模并行计算机，…

冷情妓 2024-11-08 20:56:28 7 0

SIMD 上可容纳的波前数量

我正在阅读一篇有关 AMD GPU 的文章，并对一个特定的示例感到困惑。给定一个具有多个寄存器的 SIMD 单元，如果需要 x 个寄存器，那么有多少个波前可以…

从此见与不见 2024-11-05 14:21:25 7 0

分析 SIMD 代码

已更新 - 检查下面将使其尽可能简短。如果需要，很乐意添加更多详细信息。我有一些用于标准化向量的 sse 代码。我正在使用 QueryPerformanceCounter…

只为守护你 2024-11-03 17:30:41 5 0

有没有好的 x86 双精度小矩阵 SIMD 库？

我正在寻找一个专注于图形小型 (4x4) 矩阵运算的 SIMD 库。那里有很多单精度，但我需要支持单精度和双精度。我看过 Intel 的 IPP MX 库，但我更喜欢…

萌面超妹 2024-11-02 18:34:09 6 0

为什么 ARM NEON 不比普通 C++ 更快？

这是一个 C++ 代码： #define ARR_SIZE_TEST ( 8 * 1024 * 1024 ) void cpp_tst_add( unsigned* x, unsigned* y ) { for ( register int i = 0; i < A…

又爬满兰若 2024-11-02 14:47:50 6 0

使用联合将相同的内存分配给类成员变量

我正在尝试对现有的 Vector 类进行矢量化 class Vector { public: float X,Y,Z; }; 尝试在不影响访问这些成员变量的其他类的情况下对类成员进行矢量化…

总攻大人 2024-10-28 21:10:47 8 0

使用内部函数时出现未处理的异常

我有一个使用 VC++ 创建的应用程序，想要通过向量化一些操作来探索优化机会。首先，我正在尝试以下代码： __m128i p1; p1.m128i_u32[0] = 1; p1.m128…

樱花坊 2024-10-27 00:39:07 9 0

是否可以在 VC++ 中对乘法进行向量化？没有SSE4？

我想向量化乘法运算。我尝试使用 _mm_mul_epi32，但我的 CPU 仅支持“MMX、SSE (1,2,3,3S)、EM64T”指令。有人可以告诉我是否可以尝试其他功能吗？…

楠木可依 2024-10-26 19:07:45 5 0

多个 Scala actor 服务于一项任务

我需要并行处理多个数据值（“SIMD”）。我可以使用 java.util.concurrent API (Executors.newFixedThreadPool()) 使用 Future 实例并行处理多个值： …

眼眸印温柔 2024-10-26 07:21:04 9 0

共 10 页
上一页
3
4
5
6
7
下一页

关注

忆悲凉

文章 0 评论 0

关注

hgfg1645

文章 0 评论 0

关注

qq_qLPLYi

文章 0 评论 0

关注

戏舞

文章 0 评论 0

关注

殊姿

文章 0 评论 0

关注

﹂绝世的画

文章 0 评论 0

友情链接

文江博客

simd

如何让 ICC 编译器在内循环中生成 SSE 指令？

arm_neon.h 是否缺少所有 float16_t 类型？

SIMD 常量浮点数

哪一个更快？

调整麻省理工学院的比特计数算法来并行计算单词数？

在并行位片代码中实现快速计数器

有 CUDA 的 Lisp 扩展吗？

SIMD 上可容纳的波前数量

分析 SIMD 代码

有没有好的 x86 双精度小矩阵 SIMD 库？

为什么 ARM NEON 不比普通 C++ 更快？

使用联合将相同的内存分配给类成员变量

使用内部函数时出现未处理的异常

是否可以在 VC++ 中对乘法进行向量化？没有SSE4？

多个 Scala actor 服务于一项任务

热门标签

推荐作者

忆悲凉

hgfg1645

qq_qLPLYi

戏舞

殊姿

﹂绝世的画

友情链接