第 3 页 - simd - 文江博客

simd

文章 0 浏览 6

计算距离平方的最快方法

我的代码很大程度上依赖于计算 3D 空间中两点之间的距离。为了避免昂贵的平方根，我始终使用平方距离。但它仍然占用了计算时间的主要部分，我想用更…

薄情伤 2024-12-14 20:25:12 0 0

我的 CPU 中存在 SSE 错误？

我很困惑。当我在 Visual C++ 2008 中运行此代码时： __m128i a, b; a.m128i_u64[0] = 1; b.m128i_u64[0] = 0; a.m128i_u64[1] = 0; b.m128i_u64[1] …

‖放下 2024-12-14 07:07:51 1 0

混合 SIMD 指令和多线程时，性能是否会受到影响？

我有兴趣做一个关于人脸识别的项目（利用 SIMD 指令集）。但在今年的第一学期，我学到了一些关于线程的知识，我想知道是否可以将它们结合起来。什么…

離殇 2024-12-14 05:48:06 0 0

按列主顺序重新排序 3D 矢量三元组的速度很慢

我有很多 (x1,y1,z1),(x2,y2,z2),(x3,y3,z3) 单精度向量三元组，我想对它们重新排序，所以 (x1,y1,z1),(x2,y2,z2),(x3,y3,z3) 变成 (x1,x2,x3,0,y1,y2…

忆梦 2024-12-12 17:24:09 1 0

为什么要在 ASM 中指定变量的地址而不是仅仅将其复制到寄存器中？

在我学习汇编（在 x86_64 上使用 GCC）的过程中，我遇到了一些 SSE 示例，其中不是将 C 变量复制到寄存器中，而是将地址复制到 EAX 中。当您可以这样…

你丑哭了我 2024-12-12 00:44:12 3 0

优化数组压缩

假设我有一个数组 k = [1 2 0 0 5 4 0] 我可以按如下方式计算掩码 m = k > 0 = [1 1 0 0 1 1 0] 仅使用掩码 m 和以下操作左移/右移和/或加/减/乘 …

浮生未歇 2024-12-11 15:24:55 1 0

如何使用 SSE 内在函数针对打包 32x32 优化 C 代码 => 64 位乘法，并将这些结果的一半解包为（伽罗瓦域）

一段时间以来，我一直在努力解决我正在开发的应用程序中网络编码的性能问题（请参阅优化 SSE -code, 提高网络性能coding-encoding 和 OpenCL 分发）。…

无妨# 2024-12-11 12:09:25 1 0

如何在使用 GCC 时禁用矢量化？

我正在使用以下命令编译我的代码： gcc -O3 -ftree-vectorizer-verbose=6 -msse4.1 -ffast-math 这样所有的优化都已启用。但我想禁用矢量化，同时保…

一个人的旅程 2024-12-10 15:09:05 4 0

如何在 Sandy Bridge 上将一系列整数中的位快速计数到单独的容器中？

更新：请阅读代码，它不是关于计算一个 int 中的位数是否可以使用一些聪明的汇编器来提高以下代码的性能？ uint bit_counter[64]; void Count(uint64…

对岸观火 2024-12-10 11:39:34 3 0

OpenCL 分发

我目前正在为一组非常异构的计算机（具体使用 JavaCL）开发 OpenCL 应用程序。为了最大限度地提高性能，如果可用，我想使用 GPU，否则我想退回到 CPU …

玩套路吗 2024-12-09 14:21:49 2 0

为什么SSE整数平均指令（PAVGB/PAVGW）在计算最终结果之前将临时和加1？

我最近一直在研究视频处理算法的SSE优化。我需要用 C 代码编写完全相同的算法来交叉检查算法的正确性。我好几次忘记了这个事实，这使得两种实现的结果…

瑶笙 2024-12-09 06:40:46 2 0

GPGPU编程是否只允许执行SIMD指令？

GPGPU编程是否只允许执行SIMD指令？如果是这样，那么重写一个具有以下特征的算法一定是一项乏味的任务：被设计为在通用CPU上运行而在GPU上运行？还…

似梦非梦 2024-12-08 20:44:37 4 0

为什么这个循环没有矢量化？

当我分析正在处理的代码时，一个特别的热点是以下循环： for(int loc = start; loc

微凉徒眸意 2024-12-06 01:06:47 6 0

如何在 Cg 中实现高效的并行 SIMD 比较和选择？

您如何有效地进行并行选择？例如，鉴于此标量代码，是否可以编写它，因此CG编译器将使代码在并行 / SIMD中执行（并且还使用BranchFree Selection使用…

×眷恋的温暖 2024-12-04 07:51:56 6 0

OpenCL 向量类型是否使用 SIMD

我目前在 OpenCL 内核中处理大量浮点数，我想知道是否将该数组分开并使用 OpenCL 向量类型数组来代替，是否会加快处理速度。基本上，如果我有一个包含…

撩动你心 2024-12-02 03:09:17 4 0

共 10 页
上一页
1
2
3
4
5
下一页

关注

忆悲凉

文章 0 评论 0

关注

hgfg1645

文章 0 评论 0

关注

qq_qLPLYi

文章 0 评论 0

关注

戏舞

文章 0 评论 0

关注

殊姿

文章 0 评论 0

关注

﹂绝世的画

文章 0 评论 0

友情链接

文江博客

simd

计算距离平方的最快方法

我的 CPU 中存在 SSE 错误？

混合 SIMD 指令和多线程时，性能是否会受到影响？

按列主顺序重新排序 3D 矢量三元组的速度很慢

为什么要在 ASM 中指定变量的地址而不是仅仅将其复制到寄存器中？

优化数组压缩

如何使用 SSE 内在函数针对打包 32x32 优化 C 代码 => 64 位乘法，并将这些结果的一半解包为（伽罗瓦域）

如何在使用 GCC 时禁用矢量化？

如何在 Sandy Bridge 上将一系列整数中的位快速计数到单独的容器中？

OpenCL 分发

为什么SSE整数平均指令（PAVGB/PAVGW）在计算最终结果之前将临时和加1？

GPGPU编程是否只允许执行SIMD指令？

为什么这个循环没有矢量化？

如何在 Cg 中实现高效的并行 SIMD 比较和选择？

OpenCL 向量类型是否使用 SIMD

热门标签

推荐作者

忆悲凉

hgfg1645

qq_qLPLYi

戏舞

殊姿

﹂绝世的画

友情链接