通过java程序读取大输入文件（10gb）

发布于 2024-11-25 08:26:39 字数 322 浏览 0 评论 0原文

我正在处理 2 个大型输入文件，每个文件大小约为 5GB。它是 Hadoop MapReduce 的输出，但由于我无法在 MapReduce 中进行依赖项计算，因此我切换到优化的 for 循环进行最终计算（请参阅我之前关于 MapReduce 设计的问题使用Mapreduce的递归计算

我想建议在java中读取如此大的文件并执行一些基本操作，最后我会写出大约 5gb 左右的数据..

感谢您的帮助

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

浪推晚风 2024-12-02 08:26:39

如果文件具有您所描述的属性，即每个键有 100 个整数值，每个值有 10GB，那么您正在谈论的键数量非常大，远远超出了内存的容量。如果您可以在处理之前对文件进行排序，例如使用操作系统排序实用程序或具有单个化简器的 MapReduce 作业，您可以同时读取两个文件，进行处理并输出结果，而无需在内存中保留太多数据。

回复收藏 0 原文