1.Flink 运⾏时的组件

在这里插入图片描述

在这里插入图片描述

1.1 作业管理器(JobManager)(Master节点)

  1. 控制⼀个应⽤程序执⾏的主进程,也就是说,每个应⽤程序都会被⼀个不同的JobManager 所控制执⾏。
  2. JobManager 接收要执⾏的应⽤程序,这个应⽤程序会包括:作业图(JobGraph)、逻辑数据流图(logical dataflow graph)和打包了所有的类、库和其它资源的JAR包。
  3. JobManager 会把JobGraph转换成⼀个物理层⾯的数据流图,这个图被叫做“执⾏图” (ExecutionGraph),包含了所有可以并发执⾏的任务。
  4. JobManager 会向资源管理器(Flink的资源管理器)(ResourceManager)请求执⾏任务必要的资源,也就是任务管理器(TaskManager)(Slave节点)上的任务插槽(slot)。⼀旦它获取到了⾜够的资源,就会将执⾏图(DAG)分发到真正运⾏它们的TaskManager上。⽽在运⾏过程中,JobManager会负责所有需要中央协调的操作,⽐如说检查点(checkpoints)的协调。

1.2 任务管理器(TaskManager)(Slave节点)

  1. Flink中的⼯作进程。通常在Flink中会有多个TaskManager运⾏,每⼀个TaskManager都包含了⼀定数量的插槽(slots)。插槽的数量限制了TaskManager能够执⾏的任务数量。
  2. 启动之后,TaskManager会向资源管理器注册它的插槽;收到资源管理器的指令后,TaskManager就会将⼀个或者多个插槽提供给JobManager调⽤。JobManager就可以向插槽分配任务(tasks)来执⾏了。
  3. 在执⾏过程中,⼀个TaskManager可以跟其它运⾏同⼀应⽤程序的TaskManager交换数据(⽐如shuffle)。
  4. 每⼀个任务管理器是⼀个JVM进程,每⼀个插槽是⼀个线程

1.3 资源管理器(ResourceManager)

  1. 负责管理任务管理器(TaskManager)的插槽(slot),TaskManager
    插槽是Flink中定义的处理资源单元。
  2. Flink为不同的环境和资源管理⼯具提供了不同资源管理器,⽐如YARN、
    Mesos、Kubernetes(管理docker容器组成的集群),以及Standalone(独
    ⽴集群)部署。
  3. 当JobManager申请插槽资源时,ResourceManager会将有空闲插槽的
    TaskManager分配给JobManager。如果ResourceManager没有⾜够的插槽
    来满⾜JobManager的请求,它还可以向资源提供平台(YARN,K8s)发起
    会话,以提供启动TaskManager进程的容器

1.4 分发器(Dispatcher)

  1. 可以跨作业运⾏,它为应⽤提交提供了RESTful接⼝(GET/PUT/
    DELETE/POST)。
  2. 当⼀个应⽤被提交执⾏时,分发器就会启动并将应⽤移交给⼀个
    JobManager。
  3. Dispatcher也会启动⼀个Web UI,⽤来⽅便地展示和监控作业执⾏的信
    息。

2.任务提交流程

2.1 独立集群

在这里插入图片描述
程序的并⾏度设置为10,那么并⾏任务的数量就是10,
作业管理器会向资源管理器请求10个任务槽

2.2 Yarn

在这里插入图片描述
10台机器,每台机器8-core
9台任务管理器,每台任务管理器8个任务插槽
最佳实践:任务插槽数 = 线程数 = cpu核数
任务插槽数量:静态
并⾏度:动态
最佳实践:并⾏度 = 任务插槽数量

3.任务调度原理

在这里插入图片描述

  1. Flink Program执行Client准备JobGraph(dataflow)并发送给JobManager
  2. JobManager 再调度任务到各个 TaskManager 去执行
  3. TaskManager 将心跳和统计信息汇报给 JobManager,TaskManager 之间以流的形式进行数据的传输
  4. Client,JobManager,TaskManager都是独立的JVM进程

3.1 TaskManger与Slots

在这里插入图片描述

  1. Flink 中每⼀个 TaskManager 都是⼀个JVM进程,它可能会在独⽴的线程上执⾏⼀个或多个 subtask,每⼀个⼦任务占⽤⼀个任务插槽(Task Slot)
  2. 为了控制⼀个 TaskManager 能接收多少个 task, TaskManager 通过 task slot 来进⾏控制(⼀个 TaskManager ⾄少有⼀个 slot)
  3. 默认情况下,Flink 允许⼦任务共享 slot,即使它们是不同任务的⼦任务。 这样的结果是,⼀个 slot 可以保存作业的整个管道。
  4. Task Slot 是静态的概念,是指 TaskManager 具有的并发执⾏能⼒,可以通过参数taskmanager.numberOfTaskSlots进行配置
  5. 并行度parallelism是动态概念,即TaskManager运行程序时实际使用的并发能力,不能超过Task Slot,可以通过参数parallelism.default进行配置

在这里插入图片描述
在这里插入图片描述

3.2 程序和数据流(DataFlow)

3.2.1 Flink程序组成

  • 所有的Flink程序都是由三部分组成的: Source 、Transformation 和 Sink
  • Source 负责读取数据源,Transformation 利⽤各种算⼦进⾏处理加⼯,Sink 负责输出
    在这里插入图片描述

3.2.2 图示解析

在这里插入图片描述

  1. 在运⾏时,Flink上运⾏的程序会被映射成“逻辑数据流”(dataflows)
  2. 每⼀个dataflow以⼀个或多个sources开始以⼀个或多个sinks结束。dataflow类似于任意的有向⽆环图(DAG)
  3. 在⼤部分情况下,程序中的转换运算(transformations)跟dataflow中的算⼦(operator)是⼀⼀对应的关系

3.3 执⾏图(ExecutionGraph)

Flink 中的执⾏图可以分成四层:

StreamGraph -> JobGraph -> ExecutionGraph -> 物理执⾏图

➢ StreamGraph(写的代码):是根据⽤户通过 Stream API 编写的代码⽣成的最初的图。⽤来表示程序的拓扑结构。

➢ JobGraph:StreamGraph经过优化后⽣成了 JobGraph,提交给 JobManager 的数据结构。
主要的优化为:将多个符合条件(窄依赖,没有shuffle)的算⼦ chain(链) 在⼀起作为⼀个节点

➢ ExecutionGraph:JobManager 根据 JobGraph ⽣成ExecutionGraph。ExecutionGraph是JobGraph的并⾏化版本,是调度层最核⼼的数据结构。

➢ 物理执⾏图:JobManager 根据 ExecutionGraph 对 Job 进⾏调度后,在各个TaskManager 上部署 Task 后形成的“图”,并不是⼀个具体的数据结构

在这里插入图片描述

3.4 并⾏度(Parallelism)

在这里插入图片描述
⼀个特定算⼦的 ⼦任务(subtask)的个数被称之为其并⾏度(parallelism)
⼀般情况下,⼀个 stream 的并⾏度,可以认为就是其所有算⼦中最⼤的并⾏

3.4.1 Stream在算子间的传输形式

在这里插入图片描述

  • ⼀个程序中,不同的算⼦可能具有不同的并⾏度
  • 算⼦之间传输数据的形式可以是 one-to-one (forwarding) 的模式也可以是
    redistributing 的模式,具体是哪⼀种形式,取决于算⼦的种类:
    One-to-one:stream维护着分区以及元素的顺序(⽐如source和map之间)。这意味着map 算⼦的⼦任务看到的元素的个数以及顺序跟 source 算⼦的⼦任务⽣产的元素的个数、顺序相同。map、filter、flatMap等算⼦都是one-to-one的对应关系。
    Redistributing:stream的分区会发⽣改变。每⼀个算⼦的⼦任务依据所选择的transformation发送数据到不同的⽬标任务。例如,keyBy 基于 hashCode 重分区、⽽broadcast 和 rebalance 会随机重新分区,这些算⼦都会引起redistribute过程,⽽redistribute 过程就类似于 Spark 中的 shuffle 过程。

3.4.2 并行与并发

并行:多个cpu同时执行多个任务
并发:一个cpu同时执行多个任务

3.5 任务链(Operator Chains)

在这里插入图片描述

  1. Flink 采⽤了⼀种称为任务链的优化技术,可以在特定条件下减少本地
    通信的开销。为了满⾜任务链的要求,必须将两个或多个算⼦设为相同
    的并⾏度,并通过本地转发(local forward)的⽅式进⾏连接
  2. 相同并⾏度的 one-to-one 操作,Flink 这样相连的算⼦链接在⼀起形成
    ⼀个 task,原来的算⼦成为⾥⾯的 subtask
  3. 并⾏度相同、并且是 one-to-one 操作,两个条件缺⼀不可
Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐