当前位置：文江博客话题详情

如何在不读取压缩文件全部内容的情况下对其进行尾随？

发布于 2024-07-30 02:15:14 字数 183 浏览 2 评论 0原文

我想模拟gzcat的功能 | 尾部-n.

当存在巨大文件（几 GB 左右）时，这会很有帮助。我可以尾随此类文件的最后几行而不从头读取它吗？我怀疑这是不可能的，因为我猜测对于 gzip，编码将取决于之前的所有文本。

但我仍然想听听是否有人尝试过做类似的事情 - 也许调查可以提供此类功能的压缩算法。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

空气里的味道 2024-08-06 02:15:14

不，你不能。压缩算法适用于流并调整其对流包含的内容进行内部编码以实现其高压缩比。

如果不知道某个点之前流的内容是什么，就不可能知道如何从该点开始解压缩。

任何允许您解压缩其任意部分的算法都需要多次传递数据才能压缩它。

回复收藏 0 原文

不美如何 2024-08-06 02:15:14

BGZF 用于创建 Samtools 创建的索引 gzip 压缩 BAM 文件。这些是可以随机访问的。

http://samtools.sourceforge.net/

回复收藏 0 原文

大姐，你呐 2024-08-06 02:15:14

如果您首先可以控制文件中的内容，如果它是类似 ZIP 文件的文件，您可以存储预定大小的块，文件名按递增的数字顺序排列，然后解压缩最后一个块/文件。

回复收藏 0 原文

秋叶绚丽 2024-08-06 02:15:14

如果可以选择，那么 bzip2 可能是用于此目的的更好的压缩算法。

Bzip2 使用块压缩方案。因此，如果您确定文件末尾的一块足够大以包含最后一块的所有内容，那么您可以使用 bzip2recover 恢复它。

块大小可以在写入文件时选择。事实上，当您将 -1（或 --fast）设置为 -9（或 --best）作为压缩选项（对应于 100k 到 900k 的块大小）时，就会发生这种情况。默认值为 900k。

bzip2 命令行工具没有为您提供一种友好的管道方式来执行此操作，但考虑到 bzip2 不是面向流的，也许这并不奇怪。

回复收藏 0 原文

娇柔作态 2024-08-06 02:15:14

zindex 以节省时间和空间的方式在压缩的、基于行的文本文件上创建和查询索引。

https://github.com/mattgodbolt/zindex

回复收藏 0 原文

不乱于心 2024-08-06 02:15:14

好吧，如果您之前为每个文件创建了一个索引，您就可以做到这一点...

我开发了一个命令行工具，它可以为 gzip 文件创建索引，该工具允许在其中进行非常快速的随机访问，并且它与操作（提取、尾部、连续尾部等）交错执行此操作：
https://github.com/circulosmeos/gztool

但是你可以做一个尾巴（- t），并且索引将自动创建：如果您将来要做同样的事情，它会快得多，而且无论如何，第一次它会花费与gunzip相同的时间| 尾部：

$ gztool -t my_file.gz

Well, you can do that if you previously creates an index for each file ...

I've developed a command line tool which creates indexes for gzip files which allow for very quick random access inside them, and it does this interleaved with actions (extract, tail, continuous tail, etc):
https://github.com/circulosmeos/gztool

But you can do a tail (-t), and the index will be automatically created: if you're gonna do the same in the future it'll be much quicker, and anyway the first time it will take the same time as a gunzip | tail: