关于处理大数据量的建议

发布于 2024-07-06 01:28:11 字数 212 浏览 9 评论 0 原文

因此，我有“大量”的“非常大”的 ASCII 文件的数值数据（总共千兆字节），并且我的程序需要至少按顺序处理整个文件一次。

关于存储/加载数据有什么建议吗？我考虑过将文件转换为二进制文件，以使它们更小并更快地加载。

我应该将所有内容一次性加载到内存中吗？
如果没有，打开部分加载数据的好方法是什么？
有哪些与 Java 相关的效率技巧？

需要登录才能够评论，你可以免费注册一个本站的账号。

焚却相思 2024-07-13 01:28:11

您可以转换为二进制，但是如果您需要保留原始数据，那么您将拥有 1+ 个数据副本。

在原始 ascii 数据之上构建某种索引可能是实用的，这样如果您需要再次浏览数据，您可以在后续时间更快地完成。

按顺序回答您的问题：

我应该将所有内容一次性加载到内存中吗？

如果没有必要的话就不会。对于某些文件，您也许可以，但如果您只是按顺序处理，只需对文件进行某种缓冲读取，逐个读取，并在此过程中存储您需要的任何内容。

如果没有，打开部分加载数据的好方法是什么？

BufferedReaders/etc 是最简单的，尽管您可以更深入地研究 FileChannel/etc 以使用内存映射 I/O 一次遍历数据窗口。

有哪些与 Java 相关的效率技巧？

这实际上取决于您对数据本身所做的事情！

回复收藏 0 原文

沉鱼一梦 2024-07-13 01:28:11

那么如果处理需要在多个文件和多个缓冲区的数据中跳转怎么办？不断打开和关闭二进制文件会变得昂贵吗？

我建议这种方法因为a）它对我有用，b）它会让你专注于你的算法，并让JVM、操作系统和硬件来处理性能优化。通常，他们比我们这些底层程序员更知道什么是最好的。 ;)

您将如何在您的环境中使用 MBB？只需为每个文件创建一个 MBB 并根据需要阅读它们即可。您只需要存储您的结果。。

顺便说一句：您正在处理多少数据（以 GB 为单位）？如果它超过 3-4GB，那么这在 32 位机器上将不起作用，因为 MBB 实现在平台架构的可寻址内存空间上受到限制。 64 位机器 & 操作系统将带您获取 1TB 或 128TB 的可映射数据。

如果您正在考虑性能，那么请认识 Kirk Pepperdine（一位颇有名气的 Java 性能大师）。他参与了一个网站 www.JavaPerformanceTuning.com，该网站提供了更多 MBB 详细信息： NIO 性能提示 以及其他 Java 性能相关的内容。

回复收藏 0 原文

非要怀念 2024-07-13 01:28:11

Wide finder 需要读取日志文件中的大量行，因此请查看 Java 实现，看看哪些内容有效，哪些内容无效。

回复收藏 0 原文

新雨望断虹 2024-07-13 01:28:11

在没有对正在进行的处理类型进行任何额外了解的情况下，以下是我完成类似工作时的一些一般想法。

编写一个应用程序原型（甚至可能是“扔掉的一个”），对数据集执行一些任意操作。看看它跑得多快。如果您能想到的最简单、最天真的事情是可以接受的快，不用担心！
如果简单的方法不起作用，请考虑预处理数据，以便后续运行能够在可接受的时间长度内运行。您提到必须在数据集中“跳转”很多次。有没有什么方法可以对其进行预处理？或者，一个预处理步骤可以是生成更多数据（索引数据），提供有关数据集的关键、必要部分的字节精确位置信息。然后，您的主处理运行可以利用此信息直接跳转到必要的数据。

因此，总而言之，我的方法是立即尝试一些简单的方法，看看性能如何。也许会好起来的。否则，考虑分多个步骤处理数据，节省最昂贵的操作用于不频繁的预处理。

不要“将所有内容加载到内存中”。只需执行文件访问，并让操作系统的磁盘页面缓存决定何时实际直接从内存中提取内容。