当前位置：文江博客话题详情

r signal-processing machine-learning bigdata

推荐的包装，用于大型数据集处理和R中的机器学习

发布于 2025-02-03 12:50:10 字数 1551 浏览 2 评论 0 原文

Closed. This question is seeking recommendations for software libraries, tutorials, tools, books, or other off-site resources. It does not meet Stack Overflow guidelines. It is not currently accepting answers.

我们不允许对软件库，教程，工具，书籍或其他异地资源寻求建议。您可以编辑问题，以便可以通过事实和引用来回答。

闭合 4年前。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

携君以终年 2025-02-10 12:50:10

查看在克兰上。 bigmemory and ff 是两个受欢迎的软件包。对于BigMemory（和相关 biganalytics ，and bigtabulate ）有一些非常好的演讲，小插曲和杰伊·艾默生（Jay Emerson）的概述。对于FF，我建议阅读AdlerOehlschlägel及其同事在 ff网站上的出色幻灯片演示。

另外，请考虑将数据存储在数据库中，并在较小批次中读取以进行分析。可能有许多方法需要考虑。首先，请查看此演示来自Thomas Lumley。

并在高性能计算任务视图上研究其他软件包，并在其他答案中提到。我上面提到的包裹只是我碰巧拥有更多经验的包装。

回复收藏 0 原文

吃→可爱长大的 2025-02-10 12:50:10

我认为您可以处理的数据量比其他任何数据都受到编程技能的限制。尽管许多标准功能都集中在内存分析中，但将数据切成块已经很有帮助。当然，这需要花费更多时间来编程，而不是拿起标准的R代码，但通常是很可能。

可以使用read.table或读取仅读取仅读取数据子集的剪切数据。另外，您可以查看用于从内存功能的包装盒中输出的软件包的高性能计算任务视图。您也可以将数据放在数据库中。对于空间栅格数据，出色的栅格软件包提供了内存分析。

回复收藏 0 原文

等数载，海棠开 2025-02-10 12:50:10

对于机器学习任务，我可以建议使用 biglm 执行“对数据太大而无法适应内存的回归”。对于真正的大数据，可以使用 hadoop 作为后端，然后使用软件包 rmr 通过在Hadoop群集上通过MapReduce执行统计（或其他）分析。

回复收藏 0 原文

情绪 2025-02-10 12:50:10

这完全取决于您需要的算法。如果它们可以翻译成增量形式（当在任何给定时刻仅需要数据的一小部分时，例如，对于天真贝叶斯，您只能在内存中保留模型本身，而当前的观察值也可以处理），则最好的建议是逐步进行机器学习，从磁盘读取新的数据。

但是，许多算法及其实现确实需要整个数据集。如果数据集的大小适合您的磁盘（和文件系统限制），则可以使用 mmap 软件包，允许在磁盘上映射文件以存储并在程序中使用它。但是请注意，磁盘读写很昂贵，R有时喜欢经常来回移动数据。所以要小心。

如果您的数据甚至无法存储在您的硬盘驱动器上，则需要使用分布式的机器学习系统。一个这样的基于R的系统是 revolution r 设计为 handle> handle> handle> handle 确实很大的数据集。不幸的是，它不是开源的，而且花费很多，但是您可能会尝试获得免费的学术许可。作为替代方案，您可能对基于java的 apache mahout mahout - 不是那么优雅，，但基于Hadoop和包括许多重要算法的非常有效的解决方案。

回复收藏 0 原文

只有影子陪我不离不弃 2025-02-10 12:50:10

如果内存不够足够，则一个解决方案是将数据推到磁盘并使用分布式计算。我认为Rhadoop（R+Hadoop）可能是大量数据集解决方案之一。

回复收藏 0 原文

~没有更多了~

关于作者

演多会厌

暂无简介

文章

27 人气

关注发私信

友情链接

文江博客

推荐的包装，用于大型数据集处理和R中的机器学习

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（5）

关于作者

相关话题

热门标签

推荐作者

李珊平

Quxin

范无咎

github_ZOJ2N8YxBm

若言

南…巷孤猫

友情链接

推荐的包装，用于大型数据集处理和R中的机器学习

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（5）

关于作者

相关话题

热门标签

推荐作者

李珊平

Quxin

范无咎

github_ZOJ2N8YxBm

若言

南…巷孤猫

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。