当前位置：文江博客话题详情

使用 Nvidia CUDA 的压缩库

发布于 2024-07-11 08:41:41 字数 232 浏览 12 评论 0原文

有谁知道使用 NVIDIA 的 CUDA 库？

我想知道可以利用大量并行任务（例如压缩）的算法在显卡上的运行速度是否不会比双核或四核 CPU 快得多。

您认为这种方法的优点和缺点是什么？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

开始看清了 2024-07-18 08:41:41

我们已经完成了第一阶段的研究，以提高无损数据压缩算法的性能。
选择 Bzip2 作为原型，我们的团队只优化了一项操作 - Burrows–Wheeler 转换，我们得到了一些结果：良好的可压缩文件速度提高了 2-4 倍。该代码在我们所有的测试中运行得更快。

我们将完成 bzip2，支持 deflate 和 LZMA，以完成一些现实生活中的任务，例如：HTTP 流量和备份压缩。

博客链接：
http://www .wave-access.com/public_en/blog/2011/april/22/breakthrough-in-cuda-data-compression.aspx

回复收藏 0 原文

眼角的笑意。 2024-07-18 08:41:41

不知道有人这样做并将其公开。恕我直言，这听起来不太有希望。

正如 Martinus 指出的，一些压缩算法是高度串行的。像 LZW 这样的块压缩算法可以通过独立编码每个块来并行化。压缩大型文件树可以在文件级别并行化。

然而，这些都不是真正的 SIMD 式并行（单指令多数据），并且它们不是大规模并行。

GPU 基本上是矢量处理器，您可以在锁步中执行数百或数千条 ADD 指令，并执行数据相关分支很少的程序。

一般来说，压缩算法听起来更像是 SPMD（单程序多数据）或 MIMD（多指令多数据）编程模型，更适合多核 cpu。

视频压缩算法可以像 CUDA 一样通过 GPGPU 处理加速，前提是有大量像素块并行进行余弦变换或卷积（用于运动检测），并且可以表示 IDCT 或卷积子例程使用无分支代码。

GPU 还喜欢具有高数值强度（数学运算与内存访问的比率）的算法。具有低数值强度的算法（例如添加两个向量）可以大规模并行和 SIMD，但在 GPU 上的运行速度仍然比在 CPU 上慢，因为它们是内存限制。

回复收藏 0 原文

残疾 2024-07-18 08:41:41

通常压缩算法不能利用并行任务，使算法高度并行化并不容易。在您的示例中，TAR 不是压缩算法，唯一可能高度并行化的算法是 BZIP，因为它是块压缩算法。每个块都可以单独压缩，但这需要大量的内存。 LZMA 也不能并行工作，当您看到 7zip 使用多个线程时，这是因为 7zip 将数据流拆分为 2 个不同的流，每个流都在单独的线程中使用 LZMA 进行压缩，因此压缩算法本身不是并行的。仅当数据允许时，这种拆分才有效。

回复收藏 0 原文