GUNZIP /“逐部分”提取文件

发布于 2024-09-01 08:43:41 字数 285 浏览 6 评论 0原文

我在一个磁盘空间有限的共享服务器上，并且我有一个 gz 文件，它可以超级扩展为一个巨大的文件，比我拥有的还要多。我怎样才能“部分”地提取它（假设一次10MB），并处理每个部分，甚至暂时不提取整个内容！

不，这只是一个超级巨大的压缩文件，而不是一组文件请...

嗨大卫，你的解决方案看起来非常优雅，但如果我准备得正确，似乎每次gunzip都会从文件的开头提取（并且我确信它的输出会被丢弃）。这将对我所在的共享服务器造成巨大的压力（我根本不认为它是“预读”）-您对如何使gunzip“跳过”必要数量的块有任何见解吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

旧话新听 2024-09-08 08:43:41

如果您使用 (Unix/Linux) shell 工具执行此操作，则可以使用 gunzip -c 解压缩到 stdout，然后使用 dd 和 skip< /code> 和 count 选项仅复制一个块。

例如：

gunzip -c input.gz | dd bs=10485760 skip=0 count=1 >output

则skip=1、skip=2等。

If you're doing this with (Unix/Linux) shell tools, you can use gunzip -c to uncompress to stdout, then use dd with the skip and count options to copy only one chunk.

For example:

gunzip -c input.gz | dd bs=10485760 skip=0 count=1 >output

then skip=1, skip=2, etc.

回复收藏 0 原文

苹果你个爱泡泡 2024-09-08 08:43:41

不幸的是，我不知道现有的 Unix 命令可以完全满足您的需要。您可以使用任何语言的小程序轻松完成此操作，例如Python，cutter.py（当然，任何语言也可以）：

import sys
try:
  size = int(sys.argv[1])
  N = int(sys.argv[2])
except (IndexError, ValueError):
  print>>sys.stderr, "Use: %s size N" % sys.argv[0]
  sys.exit(2)
sys.stdin.seek((N-1) * size)
sys.stdout.write(sys.stdin.read(size))

现在gunzipFifthone 将在文件 fifthone 中放入正好一百万个字节，跳过未压缩流中的前 400 万个字节。

Unfortunately I don't know of an existing Unix command that does exactly what you need. You could do it easily with a little program in any language, e.g. in Python, cutter.py (any language would do just as well, of course):

import sys
try:
  size = int(sys.argv[1])
  N = int(sys.argv[2])
except (IndexError, ValueError):
  print>>sys.stderr, "Use: %s size N" % sys.argv[0]
  sys.exit(2)
sys.stdin.seek((N-1) * size)
sys.stdout.write(sys.stdin.read(size))

Now gunzip <huge.gz | python cutter.py 1000000 5 > fifthone will put in file fifthone exactly a million bytes, skipping the first 4 million bytes in the uncompressed stream.

回复收藏 0 原文

~没有更多了~