返回介绍

1.1 集群相关概念

发布于 2024-09-23 22:13:01 字数 3172 浏览 0 评论 0 收藏 0

表格 spark 集群相关概念表

术语简介备注
Application建立在 spark 上的用户应用程序,由一个 Driver 程序和集群上的 Executors 组成。 
Application jar一个包含用户 spark 应用程序的 jar 包。在某些情况下,包含应用程序的依赖包(不包含在运行时会加入的 hadoop 和 spark 库) 
Driver Program驱动程序,运行 main 函数并创建 SparkContext 的进程。作业主进程。
Cluster manager管理集群资源的外部服务(独立模式管理器、Mesos、YARN 等)。目前有三种类型,分别是 Standalon、Apache Mesos 和 Hadoop Yarn。在 standalone 模式中即为 Master 主节点,控制整个集群,监控 worker。在 YARN 模式中为资源管理器。集群管理
Deploy node决定在何处运行 Driver 进程的部署模式,分为 cluster 和 client 两种模式。 
Worker node集群中运行应用程序的节点 
Execute应用程序在 worker 节点上启动的进程,此进程执行任务并保持数据在内存或磁盘中。每个 Worker node 对应于一个 Execute 进程,每个 Execute 进程接收 Driver 的命令 LauchTask,可执行一到多个 Task。实际的工作进程。
   
Stage阶段,每个 Job 都会被分解为多个相互依赖的任务集合。Taskset
Task被发送到某个 Executor 的一个工作单元。 
Job作业,一个 Job 包含多个 RDD 及作用于相应 RDD 上的各种 Operation. 
RDD弹性分布式数据集。 
Operation作用于 RDD 的各种操作,分为 Transformation 和 Action 
Paritition数据分区,一个 RDD 中的数据可以分成多个不同的分区。 
DAG有向无环图,反映 RDD 之间的依赖关系。 
Narrow dependency窄依赖,子 RDD 依赖父 RDD 中固定的数据分区。 
Wide dependency宽依赖,子 RDD 对父 RDD 中的所有数据分区都有依赖。 
Caching management缓存管理,对 RDD 的中间计算结果进行缓存管理,以加快整体的处理速度。 

备注:

表格 各种集群的各类节点的工作性质

集群节点主要工作资源消耗
ZOOKPERzookper多节点竞选 LEADER,存储配置信息不明显
SPARKmaster调度管理少量内存
worker/slave任务计算CPU、内存越多越好 
HADOOP HDFSnamenode文件元数据存储,访问内存越大支持的文件数量越多
datanode存储数据硬盘越大存得越多 
QJM文件元数据日志存储少量存储 
HADOOP YARNresourceManager调度管理少量内存
NodeManagerHADOOP MAPREDUCE 计算CPU、内存,安装 spark 后不需要此节点 
Mesosmaster整个集群的调度管理少量内存
 slave单个节点的资源/任务管理 
 famework: executor/scheduler单个应用程序的管理和资源的二次调度。 

备注:大部分大数据应用场合,移动数据的开销都会大于计算的开销,所以计算节点和存储节点一般都会混合部署。通常这三类节点 spark worker、HDFS Datanode 和 YARN NodeManager 都部署在相同节点上,而且这 3 类节点在集群中的数量最大,消耗资源最多。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文