当前位置：文江博客话题详情

r cluster-analysis sparse-matrix

R 中非常大的稀疏矩阵上的 k 均值聚类？

发布于 2024-09-05 05:47:38 字数 241 浏览 7 评论 0原文

我正在尝试在一个非常大的矩阵上进行一些 k 均值聚类。

该矩阵大约有 500000 行 x 4000 列，但非常稀疏（每行只有几个“1”值）。

整个内容无法放入内存，因此我将其转换为稀疏 ARFF 文件。但R显然无法读取稀疏ARFF文件格式。我还有纯 CSV 文件形式的数据。

R 中是否有任何包可以有效加载此类稀疏矩阵？然后，我将使用 cluster 包中的常规 k-means 算法继续。

非常感谢

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（4）

似梦非梦 2024-09-12 05:47:38

bigmemory 包（或者现在的包系列 - 请参阅它们的网站）使用 k-means 作为大数据扩展分析的运行示例。特别请参阅包含 k-means 函数的子包 biganalytics。

回复收藏 0 原文

￠蛋碎的人ぎ生 2024-09-12 05:47:38

请检查：

library(foreign)
?read.arff

干杯。

Please check:

library(foreign)
?read.arff

Cheers.

回复收藏 0 原文

祁梦 2024-09-12 05:47:38

Sparkcl执行稀疏层次聚类和稀疏k-means聚类
这对于适合 R 的（因此适合内存）矩阵应该很有用。

http://cran.r-project.org/web/packages/sparcl /sparcl.pdf

==

对于非常大的矩阵，我会尝试使用 Apache Spark 稀疏矩阵和 MLlib 的解决方案 - 仍然不知道它现在的实验性如何：

https://spark.apache.org/docs/latest/api /scala/index.html#org.apache.spark.mllib.linalg.Matrices$

https://spark.apache.org/docs/latest/mllib-clustering.html

回复收藏 0 原文

你对谁都笑 2024-09-12 05:47:38

R 有一个特殊的 SparseM 包可以有效地容纳它。如果这不起作用，我会尝试使用性能更高的语言，例如 C。

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

0 文章

0 评论

23 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

亚希

文章 0 评论 0

cyp

文章 0 评论 0

北漠

文章 0 评论 0

11223456

文章 0 评论 0

坠似风落

文章 0 评论 0

游魂

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文