当前位置：文江博客话题详情

使用独立的YARN运行spark集群（不使用Hadoop的YARN）

发布于 2025-01-11 15:45:30 字数 334 浏览 2 评论 0原文

我想使用 YARN 集群管理器部署 Spark 集群。这个 Spark 集群需要从属于现有 Hadoop 生态系统的外部 HDFS 文件系统读取数据，该生态系统也有自己的 YARN（但是，我不允许使用 Hadoop 的 YARN。）

我的问题是 -

是否可以使用以下命令运行 Spark 集群：一个独立的 YARN，同时仍然从外部 HDFS 文件系统读取数据？
如果是，这种方法是否有任何缺点或性能损失？
如果不是，我可以将 Spark 作为独立集群运行吗？会不会有性能问题？

假设 Spark 集群和 Hadoop 集群都运行在同一个数据中心。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

软糯酥胸 2025-01-18 15:45:30

使用独立的 YARN，同时仍然从外部 HDFS 文件系统读取数据

是的。将 yarn-site.xml 配置为必要的集群，并使用完整的 FQDN 来引用外部文件位置，例如 hdfs://namenode-external:8020/file/path

此方法的任何缺点或性能损失

是的。所有读取都将是远程的，而不是集群本地的。然而，这实际上与从 S3 或其他远程位置读取数据的性能下降类似。

我可以将 Spark 作为独立集群运行

您可以，或者您可以使用 Kubernetes（如果可用），但在我看来，如果已经有一个 YARN 集群（具有足够的资源）可用，那么两者都是毫无意义的

回复收藏 0 原文

~没有更多了~

关于作者

青丝拂面

暂无简介

文章

27 人气

关注发私信

十二

文章 0 评论 0

关注

飞烟轻若梦

文章 0 评论 0

关注

OPleyuhuo

文章 0 评论 0

关注

wxb0109

文章 0 评论 0

关注

旧城空念

文章 0 评论 0

关注

-小熊_

文章 0 评论 0

友情链接

文江博客

使用独立的YARN运行spark集群（不使用Hadoop的YARN）

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者