当前位置：文江博客话题详情

如何让 Java 将我的多核处理器与 GZIPInputStream 结合使用？

发布于 2024-08-16 11:40:29 字数 636 浏览 12 评论 0原文

我在我的程序中使用 GZIPInputStream，并且我知道如果我能让 Java 并行运行我的程序，性能将会有所帮助。

一般来说，标准虚拟机是否有命令行选项可以在多个核心上运行？它只在一台机器上运行。

谢谢！

编辑

我在 Windows XP 上运行普通的 Java SE 6 update 17。

~~将 GZIPInputStream 放在单独的线程上会显式帮助吗？~~ 不！不要将 GZIPInputStream 放在单独的线程上！不要多线程 I/O！

编辑2

我认为I/O是瓶颈，因为我正在读取和写入同一个磁盘...

不过，一般来说，有没有办法让GZIPInputStream更快？或者并行运行的 GZIPInputStream 的替代品？

编辑3 我使用的代码片段：

GZIPInputStream gzip = new GZIPInputStream(new FileInputStream(INPUT_FILENAME));
DataInputStream in = new DataInputStream(new BufferedInputStream(gzip));

原文

I'm using a GZIPInputStream in my program, and I know that the performance would be helped if I could get Java running my program in parallel.

In general, is there a command-line option for the standard VM to run on many cores? It's running on just one as it is.

Thanks!

Edit

I'm running plain ol' Java SE 6 update 17 on Windows XP.

~~Would putting the GZIPInputStream on a separate thread explicitly help?~~ No! Do not put the GZIPInputStream on a separate thread! Do NOT multithread I/O!

Edit 2

I suppose I/O is the bottleneck, as I'm reading and writing to the same disk...

In general, though, is there a way to make GZIPInputStream faster? Or a replacement for GZIPInputStream that runs parallel?

Edit 3
Code snippet I used:

GZIPInputStream gzip = new GZIPInputStream(new FileInputStream(INPUT_FILENAME));
DataInputStream in = new DataInputStream(new BufferedInputStream(gzip));

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

·深蓝 2024-08-23 11:40:29

据我所知，从该流中读取的操作是单线程的，因此如果您正在读取一个文件，多个 CPU 将无法帮助您。

但是，您可以有多个线程，每个线程解压缩不同的文件。

话虽这么说，如今解压缩并不是特别需要大量计算，您更有可能因 IO 成本而受阻（例如，如果您正在硬盘的两个不同区域中读取两个非常大的文件）。

更一般地说（假设这是 Java 新手的问题），Java 不会为您并行执行操作。您必须使用线程告诉它您想要执行的工作单元是什么以及如何在它们之间同步。 Java（在操作系统的帮助下）通常会占用尽可能多的可用内核，并且如果线程多于内核（通常是这种情况），也会在同一内核上交换线程。

回复收藏 0 原文

酒解孤独 2024-08-23 11:40:29

PIGZ = GZip 的并行实现是 gzip 的全功能替代品，在压缩数据时充分利用多个处理器和多个内核。 http://www.zlib.net/pigz/ 它还不是 Java——任何接受者。当然，世界需要 Java。

有时，压缩或解压缩会消耗大量 CPU，但它可以帮助 I/O 不再成为瓶颈。

另请参阅 HP 实验室的数据系列 (C++)。 PIGZ 仅并行化压缩，而 Dataseries 将输出分解为大的压缩块，这些压缩块可以并行解压缩。还具有许多其他功能。

回复收藏 0 原文

子栖 2024-08-23 11:40:29

将 GZIP 流包装在缓冲流中，这应该会给您带来显着的性能提升。

OutputStream out = new BufferedOutputStream(
    new GZIPOutputStream(
        new FileOutputStream(myFile)
    )
)

对于输入流也是如此。使用缓冲的输入/输出流可以减少磁盘读取的次数。

Wrap your GZIP streams in Buffered streams, this should give you a significant performance increase.

OutputStream out = new BufferedOutputStream(
    new GZIPOutputStream(
        new FileOutputStream(myFile)
    )
)

And likewise for the input stream. Using the buffered input/output streams reduces the number of disk reads.

回复收藏 0 原文

甜扑 2024-08-23 11:40:29

我没有看到任何解决程序的其他处理的答案。

如果您只是解压缩文件，最好使用命令行 gunzip 工具；但可能会对您从该流中提取的文件进行一些处理。

如果您要提取大小合理的块中的内容，那么对这些块的处理应该在与解压缩不同的线程中进行。

您可以在每个大字符串或其他数据块上手动启动一个线程；但从 Java 1.6 左右开始，您最好使用 java.util.concurrent 中的一个新奇类，例如 ThreadPoolExecutor。

更新

从问题和其他评论中我不清楚您是否真的只是使用 Java 提取文件。如果您真的、真的认为您应该尝试与 Gunzip 竞争，那么您可能可以通过使用大缓冲区来获得一些性能；例如，使用 10 MB（二进制，不是十进制！- 1048576）的缓冲区，将其填充到单个文件中并以同样的方式将其写入磁盘。这将使您的操作系统有机会对磁盘空间进行一些中等规模的规划，并且您也将需要更少的系统级调用。