当前位置：文江博客话题详情

在Ubuntu上安装大数据模块的顺序

发布于 2025-02-06 15:38:11 字数 100 浏览 2 评论 0原文

安装Hadoop，Sqoop，Zookeeper，Spark，Java，Apache，Pig，Hive，Flume，Flume，Kafka，Kafka，MySQL和其他包裹的顺序是什么？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

寂寞清仓 2025-02-13 15:38:11

从此 https://www.digitalocean.com/community/tutorials/how-to-intall-hadoop-hadoop-in-and-and-and-and-andan-alone-mode-arone-on-on-ubuntu-20-04 或 https://phoenixnap.com/kb/kb/install-hadoop-ubuntu

。

Zookeeper如果运行Hadoop群集。

然后火花，然后是卡夫卡。 mysql。但是在此行上订购并不是那么重要。

回复收藏 0 原文

提赋 2025-02-13 15:38:11

您提到的所有内容，减去mysql，都需要Java，所以从那里开始。

为了高可用性HDFS或KAFKA，您需要动物园管理器。 Zookeeper没有依赖性，所以接下来是。（生产群集的最低服务器）

接下来可以设置Kafka，因为它没有其他依赖关系。（另外3个用于高可用性的服务器）

Hive需要一个Metastore，例如MySQL，因此您然后设置MySQL并在其上运行Hive Metastore架构查询。（至少有2台用于读写mysql复制的服务器）

HDF可以是下一个-Namenodes，可用于高可用性，数据码和纱线。（7个用于2个纳米诺德台，2个资源管理器和3个datanodes + NodeManagers的服务器）

Hive可以选择使用HDFS，因此，假设您想使用它，则可以使用它，并且可以在HDFS Namenodes上配置高可用性，以便为Zookeeper配置高可用性。 Presto或Spark是比Hive快的选择，并且还将使用Metastore。（2 hiververs用于高可用性），

使用纱线，HDF和Hive，您可以设置火花。

Flume将是下一个，但前提是您实际需要它。否则，可以将代码配置为直接写入Kafka。

SQOOP是一个退休的Apache项目，可以使用Spark。猪一样。

总的来说，与Kafka和MySQL一起使用最少的生产就绪的Hadoop群集将至少需要17台服务器。如果添加负载平衡器和LDAP/Active Directory，请添加更多。

回复收藏 0 原文

送舟行 2025-02-13 15:38:11

只需在Ubuntu上安装CDH（Cloudera）或Ambari即可安装所有Hadoop生态系统模块，然后分别安装MySQL和Kafka即可使用。

回复收藏 0 原文

~没有更多了~

关于作者

眼波传意

暂无简介

文章

26 人气

关注发私信

夢野间

文章 0 评论 0

关注

百度③文鱼

文章 0 评论 0

关注

小草泠泠

文章 0 评论 0

关注

zhuwenyan

文章 0 评论 0

关注

weirdo

文章 0 评论 0

关注

坚持沉默

文章 0 评论 0

友情链接

文江博客

在Ubuntu上安装大数据模块的顺序

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者