当前位置：文江博客话题详情

允许在文件中随机读/写的最佳压缩算法是什么？

发布于 2024-07-07 17:02:50 字数 1560 浏览 16 评论 0原文

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

我只土不豪 2024-07-14 17:02:51

令我惊讶的是，有如此多的回复暗示这种事情是不可能的。

这些人难道没听说过“压缩文件系统”吗？
自 1993 年 Microsoft 因压缩文件系统技术被 Stac Electronics 起诉以来，哪些技术就已经存在了？

我听说 LZS 和 LZJB 是人们实现压缩文件系统的流行算法，压缩文件系统必然需要随机访问读取和随机访问写入。

也许最简单和最好的做法是为该文件打开文件系统压缩，并让操作系统处理细节。
但如果您坚持手动处理它，也许您可以通过阅读 NTFS 透明文件压缩。

另请查看：
"StackOverflow：对随机访问提供良好支持的压缩格式档案？”

回复收藏 0 原文

多谢你的绝情让我学会死心 2024-07-14 17:02:51

基于字典的压缩方案，每个字典条目的代码都以相同的大小进行编码，将导致能够以代码大小的任意倍数开始读取，并且如果代码不使用其上下文，则写入和更新很容易/邻居。

如果编码包含区分代码开始或结束的方法，那么您不需要代码具有相同的长度，并且可以从文件中间的任何位置开始读取。如果您从流中的未知位置读取，则此技术更有用。

回复收藏 0 原文

烛影斜 2024-07-14 17:02:51

我认为斯蒂芬·丹尼可能在这里有所发现。想象一下：

类似 zip 的序列压缩来编码
字典映射代码 -> 序列
文件就像一个文件系统
- 每次写入都会生成一个新的“文件”（字节序列，根据字典压缩）
- “文件系统”跟踪哪个“文件”属于哪些字节（开始、结束）
- 每个“文件”都根据字典进行压缩
- 按文件读取工作，根据“文件系统”解压缩和检索字节
- 写入使“文件”无效，附加新的“文件”来替换无效的文件
该系统将需要的无效文件：
- 文件系统的碎片整理机制
- 不时压缩字典（删除未使用的代码）
正确完成，可以在无人查看时（空闲时间）或通过创建新文件并最终“切换”来完成内务管理，

一个积极的效果是字典将应用于整个文件。如果您可以节省 CPU 周期，您可以定期检查与“文件”边界重叠的序列，然后将它们重新分组。

这个想法是为了真正的随机读取。如果您只打算读取固定大小的记录，那么这个想法的某些部分可能会变得更容易。

回复收藏 0 原文

韬韬不绝 2024-07-14 17:02:51

我不知道有什么压缩算法允许随机读取，更不用说随机写入了。如果您需要这种能力，最好的选择是将文件分成块而不是整个压缩。

例如
我们首先看看只读情况。假设您将文件分成 8K 块。您压缩每个块并按顺序存储每个压缩块。您需要记录每个压缩块的存储位置及其大小。然后，假设您需要从偏移量 O 开始读取 N 个字节。您需要找出它位于哪个块中 (O / 8K)，解压缩该块并获取这些字节。您需要的数据可能跨越多个块，因此您必须处理这种情况。

当您希望能够写入压缩文件时，事情会变得复杂。您必须处理越来越大和越来越小的压缩块。您可能需要为每个块添加一些额外的填充，以防它扩展（未压缩时它的大小仍然相同，但不同的数据将压缩为不同的大小）。如果压缩数据太大而无法放回给定的原始空间，您甚至可能需要移动块。

这基本上就是压缩文件系统的工作原理。您可能最好为文件打开文件系统压缩并正常读取/写入它们。

回复收藏 0 原文

同展鸳鸯锦 2024-07-14 17:02:51

压缩就是消除数据中的冗余。不幸的是，冗余不太可能以单调均匀的方式分布在整个文件中，这大约是您可以期望压缩和细粒度随机访问的唯一场景。

但是，您可以通过维护在压缩期间构建的外部列表来接近随机访问，该列表显示未压缩数据流中选定的点与其在压缩数据流中的位置之间的对应关系。显然，您必须选择一种方法，其中源流与其压缩版本之间的转换方案不会随流中的位置而变化（即没有 LZ77 或 LZ78；相反，您可能想要使用 Huffman 或 byte-对编码。）显然，这会产生大量开销，并且您必须决定如何在“书签点”所需的存储空间和解压缩从 a 开始的流所需的处理器时间之间进行权衡。书签点以获取您在该读取中实际查找的数据。

至于随机访问写入......这几乎是不可能的。如前所述，压缩是指消除数据中的冗余。如果您尝试用不具有相同冗余的数据来替换可能并且已经被压缩的数据，因为它是冗余的，那么它根本不适合。

但是，根据您要执行的随机访问写入量，您可以通过维护表示压缩后写入文件的所有数据的稀疏矩阵来模拟它。在所有读取中，您将检查矩阵以查看是否正在读取压缩后写入的区域。如果没有，那么您将转到压缩文件中获取数据。

回复收藏 0 原文

~没有更多了~

关于作者

深爱成瘾

暂无简介

文章

29 人气

关注发私信

友情链接

文江博客

允许在文件中随机读/写的最佳压缩算法是什么？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（5）

关于作者

相关话题

热门标签

推荐作者

狼性发作

美煞众生

黑凤梨

慕巷

virou

两仪

友情链接

允许在文件中随机读/写的最佳压缩算法是什么？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（5）

关于作者

相关话题

热门标签

推荐作者

狼性发作

美煞众生

黑凤梨

慕巷

virou

两仪

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。