如何在C6678 DSP上使用SSE指令集？

发布于 2025-01-09 02:39:27 字数 1139 浏览 3 评论 0原文

SSE 只能在 x86 x64 CPU 上使用。我在 TI C6678 上使用 SPEEXDSP 库时遇到问题。我从来没有使用过SSE指令，我尝试了很多方法，但无法让它在DSP上工作。

是否可以将SSE指令修改为普通的C++指令？如何修改呢？期待你的答复。例子：

static inline double interpolate_product_double(const float* a, const float* b, unsigned int len, const spx_uint32_t oversample, float* frac) {
int i;
double ret;
__m128d sum;
__m128d sum1 = _mm_setzero_pd();
__m128d sum2 = _mm_setzero_pd();
__m128 f = _mm_loadu_ps(frac);
__m128d f1 = _mm_cvtps_pd(f);
__m128d f2 = _mm_cvtps_pd(_mm_movehl_ps(f, f));
__m128 t;
for (i = 0; i < len; i += 2)
{
    t = _mm_mul_ps(_mm_load1_ps(a + i), _mm_loadu_ps(b + i * oversample));
    sum1 = _mm_add_pd(sum1, _mm_cvtps_pd(t));
    sum2 = _mm_add_pd(sum2, _mm_cvtps_pd(_mm_movehl_ps(t, t)));

    t = _mm_mul_ps(_mm_load1_ps(a + i + 1), _mm_loadu_ps(b + (i + 1) * oversample));
    sum1 = _mm_add_pd(sum1, _mm_cvtps_pd(t));
    sum2 = _mm_add_pd(sum2, _mm_cvtps_pd(_mm_movehl_ps(t, t)));
}
sum1 = _mm_mul_pd(f1, sum1);
sum2 = _mm_mul_pd(f2, sum2);
sum = _mm_add_pd(sum1, sum2);
sum = _mm_add_sd(sum, _mm_unpackhi_pd(sum, sum));
_mm_store_sd(&ret, sum);
return ret;

}

原文

SSE can only be used on x86 x64 CPUs. I have a problem using the SPEEXDSP library on a TI C6678. I've never used the SSE instruction, I've tried many ways and can't get it to work on the DSP.

Is it possible to modify SSE instructions to normal C++ instructions? How to modify it?
Looking forward to your reply.
Example:

static inline double interpolate_product_double(const float* a, const float* b, unsigned int len, const spx_uint32_t oversample, float* frac) {
int i;
double ret;
__m128d sum;
__m128d sum1 = _mm_setzero_pd();
__m128d sum2 = _mm_setzero_pd();
__m128 f = _mm_loadu_ps(frac);
__m128d f1 = _mm_cvtps_pd(f);
__m128d f2 = _mm_cvtps_pd(_mm_movehl_ps(f, f));
__m128 t;
for (i = 0; i < len; i += 2)
{
    t = _mm_mul_ps(_mm_load1_ps(a + i), _mm_loadu_ps(b + i * oversample));
    sum1 = _mm_add_pd(sum1, _mm_cvtps_pd(t));
    sum2 = _mm_add_pd(sum2, _mm_cvtps_pd(_mm_movehl_ps(t, t)));

    t = _mm_mul_ps(_mm_load1_ps(a + i + 1), _mm_loadu_ps(b + (i + 1) * oversample));
    sum1 = _mm_add_pd(sum1, _mm_cvtps_pd(t));
    sum2 = _mm_add_pd(sum2, _mm_cvtps_pd(_mm_movehl_ps(t, t)));
}
sum1 = _mm_mul_pd(f1, sum1);
sum2 = _mm_mul_pd(f2, sum2);
sum = _mm_add_pd(sum1, sum2);
sum = _mm_add_sd(sum, _mm_unpackhi_pd(sum, sum));
_mm_store_sd(&ret, sum);
return ret;

}

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

小鸟爱天空丶 2025-01-16 02:39:27

是的，您可以使用 SIMD Everywhere (SIMDe)。它提供了许多内在函数的可移植实现，包括代码中的所有内在函数。全面披露：我是首席开发人员。

编辑：在这里回复 phuclv，因为评论有点长。

SIMDe 目前不使用 c6x 内联实现像我们经常为 NEON、AltiVec/VSX、WASM SIMD 等所做的那样的功能。没有什么可以阻止它，补丁非常受欢迎，但它们还没有出现。

然而，SiMDe 中的每个函数都有回退到标准 C 的后备实现。不过，通常事情不会发展到那么远；即使不考虑上面提到的特定于体系结构的实现，如果编译器支持它，操作也可以使用 GNU C 实现矢量扩展，甚至便携式回退实际上也用 OpenMP SIMD 指令。转换函数使用诸如 __builtin_convertvector 之类的编译器内置函数，需要混洗数据的函数将使用 __builtin_shuffle / __builtin_shufflevector。

基本上，SIMDe 会竭尽全力让编译器尽可能对向量进行向量化，即使 SIMDe 实际上不知道如何执行此操作。上面的函数都非常简单；我对 c6x SIMD 的了解不够，无法了解硬件支持哪些类型的操作，但 GCC 和 clang（TI 编译器所基于的）通常可以很好地利用 SIMDe 提供的所有信息。老实说，我在这里最担心的是 c6x 是否支持 SIMD 中的双精度浮点（上面的代码使用）......它很有可能只支持单精度浮点。