用Java处理大数据结构

发布于 2024-07-14 16:15:52 字数 137 浏览 7 评论 0原文

我正在开发一个需要处理非常大的矩阵的 Java 应用程序。例如两个1000万*1000万的矩阵相乘！当然，Java 堆甚至没有足够的空间来存储这些矩阵之一。我应该怎么办？我应该使用数据库来存储我的矩阵并将每个需要的部分带入内存并将其逐个相乘吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

明月夜 2024-07-21 16:15:53

查看 hadoop。

回复收藏 0 原文

掀纱窥君容 2024-07-21 16:15:53

尝试使用内存映射文件，将所有数据存储在外部文件中并通过以下方式访问它文件通道对象。

查看这篇文章，了解 MMF 的简要介绍。

回复收藏 0 原文

难忘№最初的完美 2024-07-21 16:15:53

看看 CGL-MapReduce
http://www.cs.indiana.edu/~jekanaya/cglmr。 html#Matrix_Multiplication

回复收藏 0 原文

缺⑴份安定 2024-07-21 16:15:52

首先，1000 万 x 1000 万的矩阵实在是太大了。假设每个单元加倍且没有存储过量，则每个单元的容量将达到 800 TB。仅从主存储器中读取每个单元格一次（如果它以某种方式神奇地适合那里，这显然不会发生），将需要几天的时间。从任何类型的 SAN（我们将其放在 10GbE 上）完成此操作很可能需要几个月的时间。并且没有矩阵乘法具有 O(n) 复杂度 - 正常方法是 O(n^3)。所以...您不是使用内存映射文件、通用数据库或任何此类内容来执行此操作。

执行此类操作的代码的存亡取决于缓存效率，其中“缓存”包括充分利用主内存、本地磁盘驱动器。由于任何容纳超过 800 TB 矩阵的存储接口都必然是某种 SAN，因此几乎肯定会涉及多个服务器读取并处理其不同部分。

有许多众所周知的方法可以并行矩阵乘法（本质上是乘以各种大小的子矩阵，然后组合结果）和移位布局，以便通过围绕空间填充曲线而不是行/列排列。您肯定想看看经典的 LAPACK 界面和设计，英特尔的 MKL，GotoBLAS 作为针对特定现代硬件调整的 BLAS 函数的实现，之后您可能会冒险进入未探索的领域:-)