文章来源于网络收集而来,版权归原创者所有,如有侵权请及时联系!
1.1 集群相关概念
表格 spark 集群相关概念表
术语 | 简介 | 备注 |
---|---|---|
Application | 建立在 spark 上的用户应用程序,由一个 Driver 程序和集群上的 Executors 组成。 | |
Application jar | 一个包含用户 spark 应用程序的 jar 包。在某些情况下,包含应用程序的依赖包(不包含在运行时会加入的 hadoop 和 spark 库) | |
Driver Program | 驱动程序,运行 main 函数并创建 SparkContext 的进程。 | 作业主进程。 |
Cluster manager | 管理集群资源的外部服务(独立模式管理器、Mesos、YARN 等)。目前有三种类型,分别是 Standalon、Apache Mesos 和 Hadoop Yarn。在 standalone 模式中即为 Master 主节点,控制整个集群,监控 worker。在 YARN 模式中为资源管理器。 | 集群管理 |
Deploy node | 决定在何处运行 Driver 进程的部署模式,分为 cluster 和 client 两种模式。 | |
Worker node | 集群中运行应用程序的节点 | |
Execute | 应用程序在 worker 节点上启动的进程,此进程执行任务并保持数据在内存或磁盘中。每个 Worker node 对应于一个 Execute 进程,每个 Execute 进程接收 Driver 的命令 LauchTask,可执行一到多个 Task。 | 实际的工作进程。 |
Stage | 阶段,每个 Job 都会被分解为多个相互依赖的任务集合。 | Taskset |
Task | 被发送到某个 Executor 的一个工作单元。 | |
Job | 作业,一个 Job 包含多个 RDD 及作用于相应 RDD 上的各种 Operation. | |
RDD | 弹性分布式数据集。 | |
Operation | 作用于 RDD 的各种操作,分为 Transformation 和 Action | |
Paritition | 数据分区,一个 RDD 中的数据可以分成多个不同的分区。 | |
DAG | 有向无环图,反映 RDD 之间的依赖关系。 | |
Narrow dependency | 窄依赖,子 RDD 依赖父 RDD 中固定的数据分区。 | |
Wide dependency | 宽依赖,子 RDD 对父 RDD 中的所有数据分区都有依赖。 | |
Caching management | 缓存管理,对 RDD 的中间计算结果进行缓存管理,以加快整体的处理速度。 |
备注:
表格 各种集群的各类节点的工作性质
集群 | 节点 | 主要工作 | 资源消耗 |
---|---|---|---|
ZOOKPER | zookper | 多节点竞选 LEADER,存储配置信息 | 不明显 |
SPARK | master | 调度管理 | 少量内存 |
worker/slave | 任务计算 | CPU、内存越多越好 | |
HADOOP HDFS | namenode | 文件元数据存储,访问 | 内存越大支持的文件数量越多 |
datanode | 存储数据 | 硬盘越大存得越多 | |
QJM | 文件元数据日志存储 | 少量存储 | |
HADOOP YARN | resourceManager | 调度管理 | 少量内存 |
NodeManager | HADOOP MAPREDUCE 计算 | CPU、内存,安装 spark 后不需要此节点 | |
Mesos | master | 整个集群的调度管理 | 少量内存 |
slave | 单个节点的资源/任务管理 | ||
famework: executor/scheduler | 单个应用程序的管理和资源的二次调度。 |
备注:大部分大数据应用场合,移动数据的开销都会大于计算的开销,所以计算节点和存储节点一般都会混合部署。通常这三类节点 spark worker、HDFS Datanode 和 YARN NodeManager 都部署在相同节点上,而且这 3 类节点在集群中的数量最大,消耗资源最多。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论