在大型矩阵上用java进行PCA

发布于 2024-12-19 19:24:04 字数 227 浏览 2 评论 0原文

我有一个非常大的矩阵（大约 500000 * 20000），其中包含我将使用 pca 分析的数据。为此，我使用 ParallelColt 库，但都使用奇异值分解和特征值分解，以获得协方差矩阵的特征向量和特征值。但是这些方法浪费了堆，我得到了“OutOfMemory”错误...

同样使用SparseDoubleMatrix2D（数据非常稀疏）错误仍然存在，所以我问你：我该如何解决这个问题？

改变图书馆？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

我乃一代侩神 2024-12-26 19:24:04

您可以使用 Oja 规则计算 PCA：它是一种迭代算法，可改进 PCA 的估计，一次一个向量。它比通常的 PCA 慢，但要求您在内存中仅存储一个向量。它在数值上也非常稳定

http://en.wikipedia.org/wiki/Oja%27s_rule

回复收藏 0 原文

半仙 2024-12-26 19:24:04

我不确定更改库是否有帮助。您将需要双精度数（每个 8 个字节）。我不知道在这种情况下协方差矩阵的维数是多少，但是切换库不会改变底层计算太多。

运行时 -Xmx 设置是什么？烫发代的大小怎么样？也许你可以增加它们。

算法是立即停止还是运行一段时间？如果是后者，您可以使用 Visual VM 1.3.3 附加到该进程（下载并安装所有插件）。它会让您看到堆、线程等上发生了什么。可以帮助您找出根本原因。

Google 搜索“大型矩阵的 Java 特征值”出现此库来自 Google。如果您在评论中向下滚动，我想知道块 Lanczos 特征值分析可能会有所帮助。如果您可以获得特征值的子集就足够了。

这些 SVM 实现声称对大型数据集有用：

http://www.support-vector- machines.org/SVM_soft.html

我认为您不能要求 JVM 超过 2GB：

http://www.theserverside.com/discussions/thread.tss?thread_id=26347

根据 Oracle 的说法，您需要一个在 64 位操作系统上运行的 64 位 JVM：

http://www.oracle.com/technetwork/java/hotspotfaq-138619.html #gc_heap_32bit

回复收藏 0 原文

入画浅相思 2024-12-26 19:24:04

我针对此类问题构建了一些稀疏的增量算法。方便的是，它是建立在 Colt 之上的。

请参阅下面的rickl-cluster 库中的HallMarshalMartin 类。您可以一次向其提供行块，因此它应该可以解决您的内存问题。

该代码可在 GPL 下获取。恐怕我刚刚发布了它，所以它的文档很少，希望它是相当不言自明的。有一些 JUnit 测试应该有助于使用。

http://open.trickl.com/trickl-pca/index.html

回复收藏 0 原文

~没有更多了~

关于作者

无畏

暂无简介

文章

26 人气

关注发私信

佚名

文章 0 评论 0

关注

羁客

文章 0 评论 0

关注

天天爱笑的徐老师

文章 0 评论 0

关注

星

文章 0 评论 0

关注

夏日落

文章 0 评论 0

关注

隐诗

文章 0 评论 0

友情链接

文江博客

在大型矩阵上用java进行PCA

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

佚名

羁客

天天爱笑的徐老师

星

夏日落

隐诗

友情链接

在大型矩阵上用java进行PCA

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

佚名

羁客

天天爱笑的徐老师

星

夏日落

隐诗

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。