压缩以提高硬盘写入性能

发布于 2024-07-11 18:34:44 字数 330 浏览 6 评论 0原文

在现代系统上，可以通过压缩输出流来提高本地硬盘写入速度吗？

这个问题源于我正在处理的一个案例，其中一个程序串行生成并将大约 1-2GB 的文本记录数据转储到硬盘上的原始文本文件，我认为它是 IO 绑定的。我是否希望能够通过在数据进入磁盘之前对其进行压缩来减少运行时间，或者压缩的开销是否会耗尽我可以获得的任何收益？空闲的第二个核心会影响这个吗？

我知道这会受到用于生成数据的 CPU 数量的影响，因此关于需要多少空闲 CPU 时间的经验法则会很好。

我记得在一次视频演讲中，有人使用压缩来提高数据库的读取速度，但 IIRC 压缩比解压缩消耗更多的 CPU 资源。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

水晶透心 2024-07-18 18:34:44

是的，是的，是的，绝对是的。

这样看：以每秒兆字节为单位计算最大连续磁盘写入速度。（继续测量它，对一个巨大的写入或其他东西进行计时。）假设 100mb/s。现在以兆赫为单位计算 CPU 速度；假设 3Ghz = 3000mhz。将 CPU 速度除以磁盘写入速度。这是 CPU 空闲的周期数，您可以在压缩上花费每个字节。在本例中，3000/100 = 每字节 30 个周期。

如果您有一种算法可以将数据压缩 25%，从而达到 125mb/s 的有效写入速度，那么每个字节将有 24 个周期来运行它，并且它基本上是免费，因为 CPU 不会在等待磁盘转动的过程中无论如何都不要做任何其他事情。每字节 24 个周期 = 每 128 字节缓存线 3072 个周期，很容易实现。

我们在阅读光学介质时总是这样做。

如果您有一个空闲的第二个核心，那就更容易了。只需将日志缓冲区交给该核心的线程，它就可以花尽可能长的时间来压缩数据，因为它没有做任何其他事情！唯一棘手的一点是您实际上希望拥有一圈缓冲区，这样您就不会让生产者线程（生成日志的线程）在互斥体上等待消费者线程（将其写入磁盘的线程）的缓冲区持有。

回复收藏 0 原文

不疑不惑不回忆 2024-07-18 18:34:44

是的，至少十年来一直如此。有关于它的操作系统论文。我认为克里斯·斯莫尔可能参与其中的一些工作。

就速度而言，较低质量级别的 gzip/zlib 压缩速度相当快；如果这还不够快，您可以尝试FastLZ。使用额外核心的一种快速方法是使用 popen(3) 通过 gzip 发送输出。

回复收藏 0 原文

凉城 2024-07-18 18:34:44

值得一提的是，Sun 的文件系统 ZFS 能够启用动态压缩，以减少磁盘 IO 量，而不会显着增加开销（作为实践中的一个示例）。

回复收藏 0 原文

明月夜 2024-07-18 18:34:44

Stony Brook 的文件系统和存储实验室发布了相当广泛的性能（和能源）评估今年 IBM SYSTOR 系统研究会议上的服务器系统上的文件数据压缩：ACM 数字图书馆的论文，演示文稿。

结果取决于

所使用的压缩算法和设置、
文件工作负载以及
计算机的特性。

例如，在本文的测量中，使用文本工作负载和使用低压缩工作量的 lzop 的服务器环境比纯写入更快，但 bzip 和 gz 则不然。

在您的特定设置中，您应该尝试并测量。它确实可能会提高性能，但情况并非总是如此。

回复收藏 0 原文

茶底世界 2024-07-18 18:34:44

CPU 的增长速度比硬盘驱动器的访问速度更快。即使早在 80 年代，许多压缩文件也可以从磁盘读取并解压缩，所用时间比读取原始（未压缩）文件所需的时间要短。这不会改变。

不过，一般来说，现在压缩/解压缩的处理级别比您编写的级别要低，例如在数据库 I/O 层中。

至于第二个核心的用处，只有当系统还要执行大量其他操作时才有意义 - 并且您的程序必须是多线程的才能利用额外的 CPU。

回复收藏 0 原文

兰花执着 2024-07-18 18:34:44

以二进制形式记录数据可能是一个快速的改进。您向磁盘写入的数据会减少，CPU 将数字转换为文本的时间也会减少。如果人们要读取日志，它可能没有用，但他们也无法读取压缩日志。

回复收藏 0 原文

变身佩奇 2024-07-18 18:34:44

Windows 已经支持 NTFS 中的文件压缩，因此您所要做的就是在文件属性中设置“压缩”标志。
然后你可以衡量它是否值得。

回复收藏 0 原文

送你一个梦 2024-07-18 18:34:44

这取决于很多因素，我认为没有一个正确的答案。归结为：

在给定可用于专用的 CPU 带宽的情况下，您压缩原始数据的速度能否比磁盘的原始写入性能乘以您所达到的压缩比（或您试图获得的速度倍数）的速度更快？这个目的？

鉴于当今相对较高的数据写入速率（数十兆字节/秒），这是一个需要克服的相当高的障碍。对于其他一些答案，您可能必须拥有易于压缩的数据，并且只需通过一些合理性类型实验的测试对其进行基准测试并找出答案。

相对于关于额外核心的具体意见（猜猜！？）。如果您对数据的压缩进行线程化，并保持内核的运行——文本的压缩率很高，那么这种技术很可能会取得一些成果。但这只是一个猜测。在磁盘写入和压缩操作之间交替的单线程应用程序中，在我看来，这种情况不太可能发生。

回复收藏 0 原文

场罚期间 2024-07-18 18:34:44

如果只是文本，那么压缩肯定会有帮助。只需选择一种压缩算法和设置即可降低压缩成本。 “gzip”比“bzip2”便宜，并且两者都有可以调整的参数以支持速度或压缩比。

回复收藏 0 原文

生活了然无味 2024-07-18 18:34:44

如果您受 I/O 限制，将人类可读的文本保存到硬盘驱动器，我希望压缩能够减少您的总运行时间。

如果您有一个空闲的 2 GHz 核心和一个相对较快的 100 MB/s 流媒体硬盘，
将净日志记录时间减半需要至少 2:1 的压缩，并且每个未压缩字节不超过大约 10 个 CPU 周期，以便压缩器处理数据。
对于双管道处理器，每个字节（非常粗略地）有 20 条指令。

我发现 LZRW1-A（最快的压缩算法之一）每个字节使用 10 到 20 条指令，并且压缩典型英文文本的比例约为 2:1。
在上限（每字节 20 条指令），您正处于 IO 限制和 CPU 限制之间的边缘。在中端和低端，您仍然受到 IO 限制，因此有一些可用的周期（不多），可以让稍微复杂的压缩器长时间思考数据。

如果您有一个更典型的非顶级硬盘驱动器，或者硬盘驱动器由于某些其他原因（碎片、使用磁盘的其他多任务进程等）而速度较慢，
那么您就有更多的时间让更复杂的压缩器来思考数据。

您可能会考虑设置一个压缩分区，将数据保存到该分区（让设备驱动程序对其进行压缩），然后将速度与原始速度进行比较。
与更改程序和链接压缩算法相比，这可能需要更少的时间，并且引入新错误的可能性更小。

我看到基于 FUSE 的压缩文件系统列表，我听说NTFS也支持压缩分区。