当前位置：文江博客话题详情

Python compression

在Python中压缩短英文字符串？

发布于 2024-12-14 08:57:29 字数 663 浏览 0 评论 0 原文

我想安装长度 < 80M 的字符串内存 20 个字符，并使用尽可能少的内存。

我想要一个可以从 Python 驱动的压缩库，它允许我压缩短（<20 个字符）的英文字符串。我有大约 80M，我希望它们能容纳在尽可能少的内存中。

我想要最大程度的无损压缩。 CPU 时间不是瓶颈。

我不希望字典与每个字符串一起存储，因为这会产生很高的开销。

我想压缩到原始大小的 20% 以下。这是合理的，因为英语熵的上限是 1.75 位（Brown 等人，1992，http://acl.ldc.upenn.edu/J/J92/J92-1002.pdf) = 22% 压缩 (1.75/8)。

编辑：

我无法使用 zlib，因为标头太大。（如果我有一个以 20 字节开头的字符串，则可以没有标头来实现良好的压缩。根据 Roland Illing，zlib 标头 = 200 字节。我没有仔细检查，但我知道它大于 20。）

Huffman编码听起来不错，但它是基于单个标记的，并且不能执行 ngram（多个字符）。

smaz 有一个蹩脚的字典，并且压缩率只有 50%。

我非常喜欢使用现有代码，而不是实现压缩算法。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

伊面 2024-12-21 08:57:29

我不希望字典与每个字符串一起存储，因为这会带来很高的开销。

因此，构建一个包含所有所需内容的字符串，并使用任何解决方案一次性压缩它们。这也解决了“标题太大”的问题。

您可以通过多种方式做到这一点。也许最简单的方法是创建字符串列表的 repr()；或者您可以使用 pickle、shelve 或 json 模块来创建某种其他类型的序列化表单。

回复收藏 0 原文

家住魔仙堡 2024-12-21 08:57:29

制作一本包含所有单词的字典。然后，将所有单词转换为与字典中的偏移量相对应的数字。如果需要，您可以使用第一位来指示该单词是大写的。

回复收藏 0 原文

隐诗 2024-12-21 08:57:29

如何使用标准库中的 zipfile ？

回复收藏 0 原文

听风念你 2024-12-21 08:57:29

英文字符串中的不同字符不超过 128 个。因此你可以用 7 位代码来描述每个字符。请参阅压缩 UTF-8（或其他8 位编码）至 7 位或更少

回复收藏 0 原文

月亮邮递员 2024-12-21 08:57:29

首先，如果你单独压缩每个20字节的字符串，你的压缩率会很惨。您需要将大量字符串压缩在一起才能真正见证一些切实的好处。

其次，80M 字符串太多了，如果您必须将它们全部解压缩才能提取其中的单个字符串，那么您会对性能感到不满意。将您的输入分成较小但仍然足够大的块。典型值为 64KB，即 3200 个字符串。

然后，您可以独立压缩每个 64KB 块。当您需要访问块中的单个字符串时，您需要解码整个块。

因此，在这里，需要在压缩比（更喜欢更大的块）和随机访问速度（更喜欢更小的块）之间进行权衡。您将成为评委，选出最好的一个。

小提示：内存结构上的随机访问通常有利于快速压缩算法，而不是强压缩算法。如果只压缩一次，但随机访问很多次，则更喜欢一些高度不对称的算法，例如 LZ4-HC ：
http://code.google.com/p/lz4hc/

根据基准测试，压缩速度仅15MB/s，但解码速度约为1GB/s。这意味着每秒解码 16K 块 64KB...

回复收藏 0 原文

~没有更多了~

关于作者

一袭水袖舞倾城

暂无简介

文章

26 人气

关注发私信

友情链接

文江博客

在Python中压缩短英文字符串？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（5）

关于作者

相关话题

热门标签

推荐作者

卷耳

佚名

℉服软

qq_2gSKZM

凉宸

gyhjy

友情链接

在Python中压缩短英文字符串？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（5）

关于作者

相关话题

热门标签

推荐作者

卷耳

佚名

℉服软

qq_2gSKZM

凉宸

gyhjy

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。