如何获得 bzip2 发现的模式？（或任何其他压缩算法）

发布于 2024-09-29 20:12:45 字数 300 浏览 3 评论 0原文

我有一个由字符“0”、“1”、“2”、“3”组成的巨大文件。没有空格，也没有其他任何东西。就这4个字。我使用 bzip2 对其进行压缩，文件大小从 X 减小到 0.05*X。我想知道 bzip2 找到的用于实现文件压缩版本的字符串/模式是什么（例如 0123213232、0123121212222112 等）。有没有一种简单的方法可以从实际的 bz2 文件中提取该信息，或者通过使用某些特殊的命令行选项运行 bzip2 来提取该信息？

如果您知道其他一些现有压缩程序的答案，我也有兴趣了解一下。

感谢您的任何帮助。

最好的，苏里卡托。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

感情废物 2024-10-06 20:12:45

Bzip2 使用 Burrows-Wheeler 变换以可逆的方式将重复的字节序列转换为相同字节的序列。然后它使用 move-to-front 算法将重复字节转换为零序列。之后，它使用 huffmann 编码将较短的符号分配给更频繁的字节（可能是零）。您可以在维基百科页面上找到更多详细信息。

回复收藏 0 原文

迟到的我 2024-10-06 20:12:45

bzip2 没有这个选项，而且它的工作原理并不像我认为的那样。无论如何，您都可以找到算法中各个部分的代码。正如 @stribika 提到的，它使用 Burrows-Wheeler 并移动到前端算法，然后再通过霍夫曼编码器进行泵送。 Google 应该会以您选择的语言为您提供一些 Burrow's Wheeler 变换的结果。

但是，根据您正在寻找的内容，我认为您需要更多字典样式的编码器。您可能对 LZW 算法感兴趣：

http:// en.wikipedia.org/wiki/Lempel%E2%80%93Ziv%E2%80%93Welch

它将建立一个像你展示的字符串字典。

回复收藏 0 原文

捎一片雪花 2024-10-06 20:12:45

Burrows-Wheeler 变换

也称为块排序。如果您不喜欢阅读维基百科，请阅读 1999 年计算机科学数学基础：http://books.google.ee/books?id=OcJjpqAi15EC&pg=PA34&lpg=PA34&dq=mathematica+Burrows%E2%80 %93Wheeler+transform&source=bl&ots=KaOOIPJcKC&sig=5PzHG9UQeg3opr1FUMq8mPAxfn4&hl=et&ei=Y6vPTLfVFsqCOozvvPcE&sa=X&oi=book_result&ct=result&resnum=1&ved=0CBMQ 6AEwAA#v=onepage&q& ;f=false

霍夫曼编码

对于输入：“这是霍夫曼树的示例”。构建这样的二叉树：

alt text

然后用于构建编码表：

 Char ' ' nr(32)    | binary:00100000 | new binary:111
 Char 'a' nr(97)    | binary:01100001 | new binary:001
 Char 'e' nr(101)   | binary:01100101 | new binary:000
 Char 'f' nr(102)   | binary:01100110 | new binary:1101
 Char 'h' nr(104)   | binary:01101000 | new binary:1100
 Char 'i' nr(105)   | binary:01101001 | new binary:1001
 Char 'l' nr(108)   | binary:01101100 | new binary:01101
 Char 'm' nr(109)   | binary:01101101 | new binary:1000
 Char 'n' nr(110)   | binary:01101110 | new binary:1011
 Char 'o' nr(111)   | binary:01101111 | new binary:01100
 Char 'p' nr(112)   | binary:01110000 | new binary:01111
 Char 'r' nr(114)   | binary:01110010 | new binary:01110
 Char 's' nr(115)   | binary:01110011 | new binary:1010
 Char 't' nr(116)   | binary:01110100 | new binary:0101
 Char 'u' nr(117)   | binary:01110101 | new binary:01001
 Char 'x' nr(120)   | binary:01111000 | new binary:01000

新的二进制文件只能被读取，如果你有相同的树，所以它也在输出中得到支持。还存储数据的长度，因为新二进制的总和不是完整的字节数。

打开软件

您可以阅读

手册页： http://www .bzip.org/1.0.5/bzip2-manual-1.0.5.html
或来源：http://www.bzip.org/1.0.6/bzip2-1.0.6.tar.gz

Burrows-Wheeler transform

It is also called block-sorting. If you do not like reading Wikipedia, then read Mathematical foundations of computer science 1999: http://books.google.ee/books?id=OcJjpqAi15EC&pg=PA34&lpg=PA34&dq=mathematica+Burrows%E2%80%93Wheeler+transform&source=bl&ots=KaOOIPJcKC&sig=5PzHG9UQeg3opr1FUMq8mPAxfn4&hl=et&ei=Y6vPTLfVFsqCOozvvPcE&sa=X&oi=book_result&ct=result&resnum=1&ved=0CBMQ6AEwAA#v=onepage&q&f=false

Huffman coding

For a input of: "this is an example of a huffman tree". Binary tree like this is built:

alt text

It is then used to build coding table:

 Char ' ' nr(32)    | binary:00100000 | new binary:111
 Char 'a' nr(97)    | binary:01100001 | new binary:001
 Char 'e' nr(101)   | binary:01100101 | new binary:000
 Char 'f' nr(102)   | binary:01100110 | new binary:1101
 Char 'h' nr(104)   | binary:01101000 | new binary:1100
 Char 'i' nr(105)   | binary:01101001 | new binary:1001
 Char 'l' nr(108)   | binary:01101100 | new binary:01101
 Char 'm' nr(109)   | binary:01101101 | new binary:1000
 Char 'n' nr(110)   | binary:01101110 | new binary:1011
 Char 'o' nr(111)   | binary:01101111 | new binary:01100
 Char 'p' nr(112)   | binary:01110000 | new binary:01111
 Char 'r' nr(114)   | binary:01110010 | new binary:01110
 Char 's' nr(115)   | binary:01110011 | new binary:1010
 Char 't' nr(116)   | binary:01110100 | new binary:0101
 Char 'u' nr(117)   | binary:01110101 | new binary:01001
 Char 'x' nr(120)   | binary:01111000 | new binary:01000

New binary can only be read, if you have the same tree, so that is also backed in output. Also length of the data is store, because sum of new binary's is not full byte number.