在滑动窗口中查找字符串匹配的算法

发布于 2024-07-14 19:45:00 字数 460 浏览 9 评论 0原文

像 ZIP 这样的文件压缩的核心步骤之一就是使用之前解码的文本作为参考源。例如，编码流可能会说“接下来的 219 个输出字符与 5161 字节前解码流中的字符相同”。这让您只需 3 个字节左右即可表示 219 个字符。（ZIP 的功能远不止于此，例如霍夫曼压缩，但我只是谈论参考匹配。）

我的问题是字符串匹配算法的策略是什么。即使查看 zlib 等源代码似乎也无法很好地描述压缩匹配算法。

该问题可以表述为：给定一个文本块（例如 30K）和一个输入字符串，在 30K 文本中找到与输入字符串前面完全匹配的最长引用。”该算法在迭代时必须高效，即，将通过从前面删除一些字节并在后面添加新字节以及执行新的匹配来更新 30K 文本块。

我对算法的讨论更感兴趣。 (s) 要做到这一点，不是源代码或库（zlib 有非常好的源代码！）我怀疑可能有几种具有不同权衡的方法。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

怼怹恏 2024-07-21 19:45:00

好吧，我注意到您详细介绍了该问题，但没有提及 RFC 1951（DEFLATE 压缩数据格式的规范，即 ZIP 中使用的格式），这让我相信您可能错过了此资源。

他们的基本方法是使用三字节序列作为键的链式哈希表。只要链不为空，就会扫描其上的所有条目，以 a) 消除错误冲突，b) 消除太旧的匹配，以及 c) 从剩余的匹配中选择最长的匹配。

（请注意，他们的建议是由专利因素决定的；他们可能知道一种更有效的技术，但无法确定它是否未被某人的专利涵盖。就我个人而言，我一直想知道为什么人们不能通过检查从传入数据的第二个字节、第三个字节等开始的三字节序列的匹配来找到最长的匹配，并剔除不匹配的匹配，即，如果您的传入数据是“。 ABCDEFG...”并且您在偏移量 100、302 和 416 处获得了“ABC”的哈希匹配，但“BCD”的唯一哈希匹配位于偏移量 301 处，您知道，除非您有两个完全重合的重叠哈希匹配 - - 不太可能 - 那么 302 是最长的匹配。）

还要注意他们对可选“惰性匹配”的建议（讽刺的是，它做了更多工作）：压缩器不是自动采用从传入数据的第一个字节开始的最长匹配，而是从下一个字节开始检查更长的匹配。如果您的传入数据是“ABCDE ...”，并且滑动窗口中唯一的匹配项是“ABC”和“BCDE”，则最好将“A”编码为文字字节，将“BCDE”编码为一场比赛。

回复收藏 0 原文