大规模机器学习

发布于 2024-09-08 21:53:41 字数 253 浏览 7 评论 0原文

我需要在大数据集（10-1000 亿条记录）上运行各种机器学习技术这些问题主要围绕文本挖掘/信息提取，包括各种内核技术，但不限于它们（我们使用一些贝叶斯方法、引导、梯度提升、回归树——许多不同的问题和解决它们的方法

）最佳实施？我在机器学习方面有经验，但对如何处理大型数据集没有太多经验是否有任何可扩展和可定制的利用 MapReduce 基础设施的机器学习库强烈偏好c++，但Java和python也可以 Amazon Azure 还是自己的数据中心（我们负担得起）？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

站稳脚跟 2024-09-15 21:53:41

除非您尝试学习的分类状态空间非常大，否则我预计在包含 10-1000 亿条记录或训练样本的文本挖掘数据集中存在显着的冗余。作为粗略的猜测，我怀疑人们需要的不仅仅是 1-2% 的随机样本子集来学习可靠的分类器，这些分类器在交叉验证测试中能够很好地保持。

快速文献检索得出以下相关论文。 Tsang 论文声称 n 个训练样本的时间复杂度为 O(n)，并且有与之相关的软件 LibCVM 工具包。 Wolfe 论文描述了一种基于 MapReduce 的分布式 EM 方法。

最后，有一个

参考文献

Ivor W. Tsang、James T. Kwok、Pak-Ming Cheung (2005)。 "核心向量机：在超大型数据集上进行快速 SVM 训练 ”，《机器学习研究杂志》，第 6 卷，第 363–392 页。

J·沃尔夫、A·哈吉、D·克莱因 (2008)。 “用于超大型数据集的完全分布式 EM”，会议记录第 25 届国际机器学习会议，第 1184-1191 页。

奥利维尔·坎普、若奎姆·BL·菲利佩、斯里曼·哈穆迪和马里奥·皮亚蒂尼 (2005)。 “使用支持向量机算法挖掘非常大的数据集”，企业信息系统 V ，施普林格荷兰，第 177-184 页。

回复收藏 0 原文

眉目亦如画i 2024-09-15 21:53:41

Apache Mahout 就是您正在寻找的。

回复收藏 0 原文

心碎无痕… 2024-09-15 21:53:41

迟到的答案，但这里有一个关于大规模数据挖掘和机器学习的很好的链接：
GraphLab 项目由核心 C++ GraphLab API 以及构建在 GraphLab API 之上的高性能机器学习和数据挖掘工具包的集合组成。此外，我们正在积极开发新的界面，以允许用户利用其他语言和技术的 GraphLab API。

回复收藏 0 原文

装纯掩盖桑 2024-09-15 21:53:41

我不知道有任何使用 map/reduce 的 ML 库。也许您有能力同时使用 ML 库和 Map/Reduce 库？您可能想研究一下 Hadoop 的 Map/Reduce：
http://hadoop.apache.org/mapreduce/

你必须实现reduce和地图方法。事实上，您使用了如此多的技术可能会使事情变得复杂。

您可以在自己的集群上运行它，或者如果您正在做研究，也许您可以查看 BOINC (http://boinc. berkeley.edu/）。

另一方面，也许您可以减少数据集。我不知道你在训练什么，但是 100 亿条记录中肯定存在一些冗余......

回复收藏 0 原文

已下线请稍等 2024-09-15 21:53:41

我不知道有哪个 ML 库可以支持 10 到 1000 亿条记录，这有点极端，所以我不希望找到任何现成的东西。我建议您查看 Netflix 获奖者：http: //www.netflixprize.com//community/viewtopic.php?id=1537

NetFlix 奖项有超过 1 亿个参赛作品，因此，虽然它不像您的数据集那么大，但您仍然可能会发现他们的解决方案适用的。 BelKor 团队所做的就是结合多种算法（类似于集成学习））并对每个算法的“预测”或输出进行加权。

回复收藏 0 原文

千紇 2024-09-15 21:53:41

请访问 http://hunch.net/?p=1068 了解有关 Vowpal Wabbit 的信息;它是一个适用于大规模应用的随机梯度下降库。

回复收藏 0 原文

横笛休吹塞上声 2024-09-15 21:53:41

我的一个朋友也参与过类似的项目。他使用 Perl 进行文本挖掘，使用 Matlab 进行贝叶斯方法、潜在语义分析和高斯混合等技术......

回复收藏 0 原文

半山落雨半山空 2024-09-15 21:53:41

请参阅大规模机器学习资源（课程、论文等）列表：http://www.quora.com/Machine-Learning/What-are-some-introductory-resources-for-learning-about-large-scale-机器学习

回复收藏 0 原文

~没有更多了~

关于作者

梦纸

暂无简介

0 文章

0 评论

23 人气

关注发私信

友情链接

文江博客

大规模机器学习

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（8）

关于作者

相关话题

热门标签

推荐作者

1CH1MKgiKxn9p

ゞ记忆︶ㄣ

JackDx

信远

yaoduoduo1995

霞映澄塘

友情链接

大规模机器学习

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（8）

关于作者

相关话题

热门标签

推荐作者

1CH1MKgiKxn9p

ゞ记忆︶ㄣ

JackDx

信远

yaoduoduo1995

霞映澄塘

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。