使用独立的YARN运行spark集群(不使用Hadoop的YARN)
我想使用 YARN 集群管理器部署 Spark 集群。 这个 Spark 集群需要从属于现有 Hadoop 生态系统的外部 HDFS 文件系统读取数据,该生态系统也有自己的 YARN(但是,我不允许使用 Hadoop 的 YARN。)
我的问题是 -
- 是否可以使用以下命令运行 Spark 集群 :一个独立的 YARN,同时仍然从外部 HDFS 文件系统读取数据?
- 如果是,这种方法是否有任何缺点或性能损失?
- 如果不是,我可以将 Spark 作为独立集群运行吗?会不会有性能问题?
假设 Spark 集群和 Hadoop 集群都运行在同一个数据中心。
I want to deploy a spark cluster with YARN cluster manager.
This spark cluster needs to read data from an external HDFS filesystem belonging to an existing Hadoop ecosystem that also has its own YARN (However, I am not allowed to use the Hadoop's YARN.)
My Questions are -
- Is it possible to run spark cluster using an independent YARN, while still reading data from an outside HDFS filesystem?
- If yes, Is there any downside or performance penalty to this approach?
- If no, can I run Spark as a standalone cluster, and will there be any performance issue?
Assume both the spark cluster and the Hadoop cluster are running in the same Data Center.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
是的。将
yarn-site.xml
配置为必要的集群,并使用完整的 FQDN 来引用外部文件位置,例如hdfs://namenode-external:8020/file/path
是的。所有读取都将是远程的,而不是集群本地的。然而,这实际上与从 S3 或其他远程位置读取数据的性能下降类似。
您可以,或者您可以使用 Kubernetes(如果可用),但在我看来,如果已经有一个 YARN 集群(具有足够的资源)可用,那么两者都是毫无意义的
Yes. Configure the
yarn-site.xml
to the necessary cluster and use full FQDN to refer to external file locations such ashdfs://namenode-external:8020/file/path
Yes. All reads will be remote, rather than cluster-local. This would effectively be similar performance degradation as reading from S3 or other remote locations, however.
You could, or you could use Kubernetes, if that's available, but both are pointless IMO, if there's already a YARN cluster (with enough resources) available