当前位置：文江博客话题详情

hadoop data-mining

Hadoop初学者

发布于 2024-09-10 02:25:25 字数 1436 浏览 2 评论 0 原文

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

避讳 2024-09-17 02:25:25

我找到了一个大学网站，其中包含一些仅基于 Hadoop 构建的 MapReduce 练习和解决方案：

http://www.umiacs.umd.edu/~jimmylin/Cloud9/docs/index.html

此外，还有来自 Yahoo 和 Google 的课程：

http://developer.yahoo.com/hadoop/tutorial/

http://code.google.com/edu/parallel/index.html

所有这些课程都在普通 Hadoop 上运行，以回答您的问题。

回复收藏 0 原文

抠脚大汉 2024-09-17 02:25:25

从初学者级别的普通 MapReduce 开始。您可以在下一个级别尝试 Pig/Hive/Hbase。

除非你足够努力地使用普通的 MapReduce，否则你将无法欣赏 Pig/Hive/Hbase

回复收藏 0 原文

何必那么矫情 2024-09-17 02:25:25

我还推荐 umd 网站。然而，您似乎对 Hadoop 完全陌生。我推荐 Tom White 所著的《Hadoop：权威指南》一书。它有点过时了[指的是 0.18 版本，而不是最新的 0.20+）。阅读它，做一些例子，你应该能够更好地判断如何构建你的项目。

回复收藏 0 原文

何以畏孤独 2024-09-17 02:25:25

我正在尝试使用 hadoop 练习一些数据挖掘算法。

使用在 Hadoop 之上运行的 Apache mahout。
[http://mahout.apache.org/][1]

我可以这样做吗单独使用 HDFS，还是需要使用 hive/hbase/pig 等子项目？

HDFS是hadoop的文件系统。它代表 Hadoop 分布式文件系统。无论您要在 Hadoop 堆栈中使用什么工具，它们都应该处理分布式环境中的数据。因此，仅使用 HDFS 无法做任何事情。您需要任何计算技术/工具，例如 MapReduce、Pig、Hive 等。

希望这会有所帮助！

回复收藏 0 原文

救星 2024-09-17 02:25:25

您还可以使用 Mahout http://mahout.apache.org/

它是一个机器学习和数据-可在 Hadoop 之上使用的挖掘库。

一般来说，Mahout 目前支持（取自 Mahout 站点）：

协同过滤
基于用户和项目的推荐器
K-Means、模糊 K-Means 聚类
Mean Shift 聚类
Dirichlet 过程聚类
潜在 Dirichlet 分配
奇异值分解
并行频繁模式挖掘
互补朴素贝叶斯分类器
随机森林基于决策树的分类器

回复收藏 0 原文

ゃ人海孤独症 2024-09-17 02:25:25

您可以将 R、Spark Hadoop 一起使用作为完整的开源解决方案。

R- 统计语言，提供许多开箱即用的库。
Spark - 使用机器学习算法的数据处理速度比 MR 更快的框架。
Hadoop - 基于商用硬件的可扩展且强大的数据存储。

回复收藏 0 原文

多像笑话 2024-09-17 02:25:25

Hadoop 是一种分布式/并行数据处理工具。 Mahout 是一个数据挖掘/机器学习框架，可以在独立模式下工作，也可以在 Hadoop 分发环境中工作。决定将其单独使用还是与 Hadoop 一起使用，归根结底取决于需要挖掘的历史数据的大小。如果数据大小为 TB 和 PB 量级，您通常将 Mahout 与 Hadoop 结合使用。

Mahout 支持 3 种机器学习算法：推荐、聚类和分类。曼宁的Mahout in action一书很好地解释了这一点。 Weka 是另一个类似的开源项目。所有这些都属于机器学习框架的类别。

请参阅博客，其中讨论了有关如何 Mahout 和 Hadoop 分布式文件系统可以工作吗？作为这方面的先驱，还有一个关于组件架构这些工具如何组合在一起解决 Hadoop /Mahout 生态系统中的数据挖掘问题。

回复收藏 0 原文

泅人 2024-09-17 02:25:25

取决于您的应用程序。您需要了解 hive、pig、hbase 的用途，然后才能找出它们到底适合您的应用程序的位置。这些都是创建的具体原因，你需要了解简单google一下就会得到结果

回复收藏 0 原文

极度宠爱 2024-09-17 02:25:25

HDFS 是一个分布式存储系统，用于转储数据以进行进一步分析。

Hive/Pig/MR/Spark/Scala 等...都是分析数据的工具。您实际上可以用其中任何一个来编写您的算法。仅靠 Pig/Hive/Hbase 无法达到 100%。您应该知道如何编写 MapReduce 算法并需要将它们导入到 Hive/Pig 中。

ETL 工具：
Pig（脚本语言）
Hive（类似 SQl 的结构化数据查询语言）
HBASE对于非结构化数据可以实现实时数据分析。 MapReduce 是按步骤运行的，而 Spark 是按步骤运行的
整个数据集一举完成。
Sqoop：从 RDDMS 导入/导出数据
Flume：将流数据导入hadoop
Mahout：机器学习算法工具

Hadoop Definitive 指南非常适合初学者入门。

回复收藏 0 原文

朮生 2024-09-17 02:25:25

您必须根据 Hadoop 生态系统的优势使用不同的工具。

Hive 和 Hbase 适合处理结构化数据

Sqoop 用于从传统 RDBMS 导入结构化数据数据库 Oracle、SQL Server 等。

Flume 用于处理非结构化数据。

您可以使用内容管理系统来处理非结构化数据和内容。半结构化数据 - Tera 或 Peta 字节的数据。如果您要存储非结构化数据，我更喜欢将数据存储在 CMS 中，并使用 NoSQL 数据库（如 HBASE）中的元数据信息>（例如图像ID，图像的MD5SUM）

要处理大数据流，您可以使用Pig

Spark 是一个针对 Hadoop 数据的快速通用计算引擎。 Spark 提供了一种简单而富有表现力的编程模型，支持广泛的应用程序，包括 ETL、机器学习、流处理和图形计算。

请查看结构化数据和 Hadoop 中的非结构化数据处理

查看完整的 hadoop 生态系统和这个 SE 问题

回复收藏 0 原文

~没有更多了~

关于作者

赏烟花じ飞满天

暂无简介

0 文章

0 评论

22 人气

关注发私信

友情链接

文江博客

Hadoop初学者

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（10）

关于作者

相关话题

热门标签

推荐作者

1CH1MKgiKxn9p

ゞ记忆︶ㄣ

JackDx

信远

yaoduoduo1995

霞映澄塘

友情链接

Hadoop初学者

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（10）

关于作者

相关话题

热门标签

推荐作者

1CH1MKgiKxn9p

ゞ记忆︶ㄣ

JackDx

信远

yaoduoduo1995

霞映澄塘

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。