使用独立的YARN运行spark集群(不使用Hadoop的YARN)

发布于 2025-01-11 15:45:30 字数 334 浏览 0 评论 0原文

我想使用 YARN 集群管理器部署 Spark 集群。 这个 Spark 集群需要从属于现有 Hadoop 生态系统的外部 HDFS 文件系统读取数据,该生态系统也有自己的 YARN(但是,我不允许使用 Hadoop 的 YARN。)

我的问题是 -

  • 是否可以使用以下命令运行 Spark 集群 :一个独立的 YARN,同时仍然从外部 HDFS 文件系统读取数据?
  • 如果是,这种方法是否有任何缺点或性能损失?
  • 如果不是,我可以将 Spark 作为独立集群运行吗?会不会有性能问题?

假设 Spark 集群和 Hadoop 集群都运行在同一个数据中心。

I want to deploy a spark cluster with YARN cluster manager.
This spark cluster needs to read data from an external HDFS filesystem belonging to an existing Hadoop ecosystem that also has its own YARN (However, I am not allowed to use the Hadoop's YARN.)

My Questions are -

  • Is it possible to run spark cluster using an independent YARN, while still reading data from an outside HDFS filesystem?
  • If yes, Is there any downside or performance penalty to this approach?
  • If no, can I run Spark as a standalone cluster, and will there be any performance issue?

Assume both the spark cluster and the Hadoop cluster are running in the same Data Center.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

软糯酥胸 2025-01-18 15:45:30

使用独立的 YARN,同时仍然从外部 HDFS 文件系统读取数据

是的。将 yarn-site.xml 配置为必要的集群,并使用完整的 FQDN 来引用外部文件位置,例如 hdfs://namenode-external:8020/file/path

此方法的任何缺点或性能损失

是的。所有读取都将是远程的,而不是集群本地的。然而,这实际上与从 S3 或其他远程位置读取数据的性能下降类似。

我可以将 Spark 作为独立集群运行

您可以,或者您可以使用 Kubernetes(如果可用),但在我看来,如果已经有一个 YARN 集群(具有足够的资源)可用,那么两者都是毫无意义的

using an independent YARN, while still reading data from an outside HDFS filesystem

Yes. Configure the yarn-site.xml to the necessary cluster and use full FQDN to refer to external file locations such as hdfs://namenode-external:8020/file/path

any downside or performance penalty to this approach

Yes. All reads will be remote, rather than cluster-local. This would effectively be similar performance degradation as reading from S3 or other remote locations, however.

can I run Spark as a standalone cluster

You could, or you could use Kubernetes, if that's available, but both are pointless IMO, if there's already a YARN cluster (with enough resources) available

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文