开源微服务编排框架：Netflix Conductor-6ren

开源微服务编排框架：Netflix Conductor

转载作者：qq735679552 更新时间：2022-09-27 22:32:09

25

4

CFSDN坚持开源创造价值，我们致力于搭建一个资源共享平台，让每一个IT人在这里找到属于你的精彩世界.

这篇CFSDN的博客文章开源微服务编排框架：Netflix Conductor由作者收集整理，如果你对这篇文章有兴趣，记得点赞哟.

开源微服务编排框架：Netflix Conductor

本文主要介绍netflix conductor的基本概念和主要运行机制.

一简介

netflix conductor是基于JAVA语言编写的开源流程引擎，用于架构基于微服务的流程。它具备如下特性:

允许创建复杂的业务流程，流程中每个独立的任务都是由一个微服务所实现。
基于JSON DSL 创建工作流，对任务的执行进行编排。
工作流在执行的过程中可见、可追溯。
提供暂停、恢复、重启等多种控制模型。
提供一种简单的方式来最大限度重用微服务。
拥有扩展到百万流程并发运行的服务能力。
通过队列服务实现客户端与服务端的分离。
支持 HTTP 或其他RPC协议进行数据传送

二基本概念

1 Task

Task是最小执行单元，承载了一段执行逻辑，如发送HTTP请求等.

System Task：被conductor服务执行，这些任务的执行与引擎在同一个JVM中。
Worker Task：被worker服务执行，执行与引擎隔离开，worker通过队列获取任务后，执行并更新结果状态到引擎。Worker的实现是跨语言的，其使用Http协议与Server通信。

conductor提供了若干内置SystemTask

功能性Task：
- HTTP：发送http请求
- JSON_JQ_TRANSFORM：jq命令执行，一般用户json的转换，具体可见jq官方文档
- KAFKA_PUBLISH: 发布kafka消息
流程控制Task：
SWITCH(原Decision)：条件判断分支，类似于代码中的switch case
FORK：启动并行分支，用于调度并行任务
JOIN：汇总并行分支，用于汇总并行任务
DO_WHILE：循环，类似于代码中的do while
WAIT：一直在运行中，直到外部时间触发更新节点状态，可用于等待外部操作
SUB_WORKFLOW：子流程，执行其他的流程
TERMINATE：结束流程，以指定输出提前结束流程，可以与SWITCH节点配合使用，类似代码中的提前return语句

自定义Task:

对于System Task，Conductor提供了WorkflowSystemTask 抽象类，可以自定义扩展实现。
对于Worker Task，可以实现conductor的client Worker接口实现执行逻辑。

2 Workflow

Workflow由一系列需要执行的Task组成，conductor采用json来描述Task的流转关系。
除基本的顺序流程外，借助内置的SWITCH、FORK、JOIN、DO_WIHLE、TERMINATE任务，还能实现分支、并行、循环、提前结束等流程控制。

3 Input&Output

Task的输入是一种映射，其作为工作流实例化的一部分或某些其他Task的输出。允许将来自工作流或其他Task的输入/输出作为随后执行的Task的输入.

Task有自己的输入和输出，输入输出都是jsonobject类型。
Task可以引用其他Task的输入输出，使用${taskxxx.output}的方式引用。引用语法为json-path，除最基础的${taskxxx.output}的值解析方式外，还支持其他复杂操作，如过滤等，具体见json-path语法。
启动Workflow时可以传入流程的输入数据，Task可以通过${workflow.input}的方式引用。

Task实现原子操作的处理以及流程控制操作，Workflow定义描述Task的流转关系，Task引用Workflow或者其它Task的输入输出。通过这些机制，conductor实现了JSON DSL对流程的描述.

三整体架构

开源微服务编排框架：Netflix Conductor

主要分为几个部分:

Orchestrator: 负责流程的流转调度工作;
Management/Execution Service: 提供流程、任务的管理更新等操作;
TaskQueues: 任务队列，Orchestrator解析出来的待执行Task会放到队列中;
Worker: 任务执行worker，从TaskQueues中获取任务，通过Execution Service更新任务状态与结果数据;
Database: 元数据&运行时数据库，用于保存运行时的Workflow、Task等状态信息，以及流程任务定义的等原信息;
Index: 索引数据库，用于存储执行历史;

四运行模型

1 Task状态转移

SCHEDULED：待调度，task放到队列中还没有被poll出来执行时的状态
IN_PROGRESS：执行中，被poll出来执行但还没有完成时的状态
COMPLETED：执行完成
FAILED：执行失败
CANCELLED：被中止时为此状态，一般出现在两种情况：
- 1.手动中止流程时，正在运行中的task会被置为此状态;
- 2.多个fork分支，当某个分支的task失败时，其它分支中正在运行的task会被置为此状态;

开源微服务编排框架：Netflix Conductor

2 任务队列

任务的执行(同步的系统任务除外)都会先添加到任务队列中，是典型的生产者消费者模式.

任务队列，是一个带有延迟、优先级功能的队列;
每种类型的Task是一个单独的队列，此外，如果配置了domain、isolationGroup，还会拆分成多个队列实现执行隔离;
decider service是生产者，其根据流程配置与当前执行情况，解析出可执行的task后，添加到队列;
任务执行器(SystemTaskWorker、Worker)是消费者，其长轮询对应的队列，从队列中获取任务执行;

队列接口可插拔，conductor提供了Dynomite 、MySQL、PostgreSQL的实现.

3 核心功能实现机制

conductor调度的核心是decider service，其根据当前流程运行的状态，解析出将要执行的任务列表，将任务入队交给worker执行.

decide主要流程简化如下，详细代码见WorkflowExecutor.java的decide方法:

开源微服务编排框架：Netflix Conductor

其中，调度任务处理流程简化如下，详细代码见WorkflowExecutor.java的scheduleTask方法:

开源微服务编排框架：Netflix Conductor

decide的触发时机。

最主要的触发时机:

新启动执行时，会触发decide操作。

系统任务执行完成时，会触发decide操作。

Workder任务通过ExecutionService更新任务状态时，会触发decide操作。

流程控制节点的实现机制。

1)Task & TaskMapper 。

对于每一个Task来说，都有Task和TaskMapper两部分

Task：任务的执行逻辑代码，它的作用是Task的执行。

TaskMapper：任务的映射逻辑代码，它通过Task的定义配置、当前实例的执行状态等信息，返回实际需要执行的Task列表。

对于一般的任务来说，TaskMapper返回的是就是Task本身，补充一些执行实例的状态信息。但是对于控制节点来说，会有不同的逻辑.

2)条件分支(SWITCH)的实现机制。

SWITCH用于根据条件判断，执行不同的分支.

实际上，该节点的Task不做任何操作，TaskMapper根据分支条件，判断出要走的分之后，返回对应分支的第一个Task.

SwitchTaskMapper.java getMappedTasks方法关键代码:

// 待调度的Task list，最终返回结果
List tasksToBeScheduled = new LinkedList<>();
// evalResult是分支条件变量的值(case)
// decisionCases是一个Map结构，key为分支的case值，value为对应分支的任务定义list（分支内的任务定义会有多个）
// 根据分支变量的实际值，获取对应分支的任务定义list
List selectedTasks = taskToSchedule.getDecisionCases().get(evalResult);
// default的逻辑：如果获取不到对应的分支或者分支为空，则用默认的分支
if (selectedTasks == null || selectedTasks.isEmpty()) {
selectedTasks = taskToSchedule.getDefaultCase();
}
if (selectedTasks != null && !selectedTasks.isEmpty()) {
// 获取分支的第一个(下标0)task，返回给decider service去做调度（decider会把任务添加到队列里，交给worker去执行）
WorkflowTask selectedTask = selectedTasks.get(0);
// 调用了deciderService的getTasksToBeScheduled方法，此方法里又获取到TaskMapper调用了getMappedTasks。这里采用了递归调用的方式，解析嵌套的Task
List caseTasks = taskMapperContext.getDeciderService()
.getTasksToBeScheduled(workflowInstance, selectedTask, retryCount, taskMapperContext.getRetryTaskId());
tasksToBeScheduled.addAll(caseTasks);
switchTask.getInputData().put("hasChildren", "true");
}
return tasksToBeScheduled;

3)并行(FORK)的实现机制。

FORK用于开启多个并行分支.

实际上，该节点的Task不做任何操作，TaskMapper返回所有并行分支的第一个Task.

ForkJoinTaskMapper.java getMappedTasks关键代码:

// 待调度的Task list，最终返回结果
List tasksToBeScheduled = new LinkedList<>();
// 配置中的所有fork分支
List > forkTasks = taskToSchedule.getForkTasks();
for (List wfts : forkTasks) {
// 每个分支取第一个Task
WorkflowTask wft = wfts.get(0);
// 调用了deciderService的getTasksToBeScheduled方法，此方法里又获取到TaskMapper调用了getMappedTasks。这里采用了递归调用的方式，解析嵌套的Task
List tasks2 = taskMapperContext.getDeciderService()
.getTasksToBeScheduled(workflowInstance, wft, retryCount);
tasksToBeScheduled.addAll(tasks2);
}
return tasksToBeScheduled;

总的来说，分支(SWITCH)、并行(FORK)节点本身没有执行逻辑，其通过TaskMapper返回到实际要执行的Task，然后交给Decider Service处理.

重试的实现机制。

重试和其延迟时间设置，都是借助任务队列的功能实现的.

重试：将任务重新添加到任务队列。

重试的延迟时间：添加到任务队列时设置延迟时间，延迟时间过后，任务才能在队列中被poll出来执行。

五完整性保障机制

由于调度过程中可能会出现因机器重启、网络异常、JVM崩溃等偶发情况，这些会导致的decide过程意外终止，流程执行不完整，展现出如流程一直运行中(实际已经没有在调度)，或者其它状态错误等异常现象.

1 WorkflowReconciler

针对这种情况，conductor有一个WorkflowReconciler，会定期尝试decide所有正在运行中的流程，修复流程执行的一致性。此外，它还有一个作用是校验流程超时时间.

2 decideQueue

那么WorkflowReconciler是如何获取到当前运行中的流程呢，答案是decideQueue.

decideQueue和任务队列相同，也是一个具有延迟功能的队列，其存放的是正在执行中的流程的实例id。在任务开始执行时(包括新启动执行、重试执行、恢复执行、重跑执行等)，会将实例id push到decideQueue中;在执行结束(成功、失败)时，会从decideQueue中删除实例id.

3 ExecutionLockService

WorkflowReconciler会定期尝试decide所有正在运行中的流程用于超时判断、维护流程一致性。但是流程本身正常执行也会触发decide，如果同一个执行同时触发两个decide，可能会导致状态混乱，执行卡住等问题.

conductor采用了锁来解决这个问题，其提供了单机LocalOnlyLock(基于信号量实现)、redis分布式锁(基于redission实现)、zookeeper分布式锁三种实现.

decide方法中最开始会尝试获取锁，如果获取失败则直接返回。通过锁来保障不会对同一个流程实例并发执行decide.

if (!executionLockService.acquireLock(workflowId)) {
return false;
}

由于锁是可配置的，可能会导致一个误区：单台机器的话不用配置锁。其实单机也是需要配置锁的，因为WorkflowReconciler和流程正常执行会产生冲突，可能会导致偶发的流程状态混乱问题.

参考:

Github: https://github.com/Netflix/conductor 。

官方文档：https://netflix.github.io/conductor/ 。

WorkflowReconciler：https://github.com/Netflix/conductor/blob/main/core/src/main/java/com/netflix/conductor/core/reconciliation/WorkflowReconciler.java 。

WorkflowSystemTask：https://github.com/Netflix/conductor/blob/main/core/src/main/java/com/netflix/conductor/core/execution/tasks/WorkflowSystemTask.java?spm=ata.21736010.0.0.2b501a3cYnrSfT&file=WorkflowSystemTask.java 。

原文链接：https://mp.weixin.qq.com/s/N8kUNMsvZ5db5BC7jGivAQ 。

最后此篇关于开源微服务编排框架：Netflix Conductor的文章就讲到这里了,如果你想了解更多关于开源微服务编排框架：Netflix Conductor的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

25

4

0

文章推荐： PHP基于自定义函数实现的汉字转拼音功能实例

文章推荐： SQL实现LeetCode(196.删除重复邮箱)

文章推荐： MySQL Shell import_table数据导入的实现

文章推荐： PHP基于自定义函数生成笛卡尔积的方法示例

wcf - .NET RIA 服务/WCF 服务
我们正在创建一个 n 层 Silverlight LOB 应用程序，并且正在考虑使用 .NET RIA 服务。我们不清楚这与我们当前的 WCF 服务 API 的关系在哪里。我们当前的架构是: 银光
docker - docker-compose up <服务>无法正确启动<服务>
上下文:我在celery + rabbitmq堆栈上有一个主工作系统。系统已docker化(此处未提供worker服务) version: '2' services: rabbit:
c# - 托管 Web 服务/WCF 服务？
我是 Windows Azure 新手，我正在尝试将我的 Web 应用程序部署到 Windows Azure。在我的应用程序中，我使用了一些 Web 服务，现在我想知道如何在 Windows Azur
c# - Web 服务/wcf 服务，返回数据集是否更好？
因此，根据我对服务的了解，自定义对象似乎是写入服务以返回数据的方式。如果我正在编写将用于 1) 填充数据库或 2) 为网站提供信息的服务，是否有返回数据集/数据表而不是包含所有这些的自定义对象列表的用
json - Azureml Web 服务 - 如何从实验创建供移动应用程序使用的 Rest 服务？
我在 google 和 stackoverflow 上都找过答案，但似乎找不到。我正在尝试将 azure 实验的输出获取到应用程序。我使用 ibuildapp 和谷歌表单制作了该应用程序。如何使用 g
kubernetes - 服务 "kubernetes"已删除 - 意外删除了 kubernetes 服务
我不小心删除了 kubernetes svc: service "kubernetes" deleted 使用: kubectl delete svc --all 我该怎么办？我只是想删除服务，以便
php - Android Web 服务 - "poke"Web 服务
我正在努力确定解决网络服务问题的最有效方法。我的情况:我正在开发一个 Android 应用程序，它通过 Web 服务从 mysql 数据库(在我自己的服务器 PC 上)存储和检索数据。用户按下提交按
android - 什么时候绑定(bind)服务，什么时候不绑定(bind)服务
我一直在翻阅 Android 文档，我很好奇。什么时候绑定(bind)服务而不是不绑定(bind)服务？它提供了哪些优点/限制？最佳答案 When would you bind a service
hadoop - Hive 服务、HiveServer2 和 MetaStore 服务？
我试图从架构的角度理解 hive，我指的是 Tom White 关于 Hadoop 的书。我遇到了以下关于配置单元的术语:Hive Services、hiveserver2、metastore 等。
c# - Windows 服务(托管 WCF 服务)在启动时立即停止
我的问题:安装服务后我无法导航到基地址，因为服务不会继续运行(立即停止)。我需要在服务器或我的机器上做些什么才能使 baseAddress 有效吗？背景:我正在尝试学习如何使用 Windows 服务
ASP.NET Web 服务(复数)或具有多个类的 Web 服务
我正在努力就 Web 服务的正确组织做出决定。我应该有多个 ASMX 来代表 Web 服务中的不同功能，还是应该有一个 ASMX？如果我有多个 ASMX，这不构成多个 Web 服务吗？如果我只有一
Azure 服务 WebRole 中托管的 WCF REST 服务 : AccessControlService?
我正在从事一个在 azure 平台上提供休息服务的项目。该服务由 iPhone 客户端使用，这是选择其余方法的重要原因之一。我们希望通过 AccessControlService(ACS) 并使用
ionic-framework - ionic 服务 VS ionic 服务 -c
我是 Ionic 新手，正在使用 Ionic 3.9.2 我有几个终端命令来为我的 ionic 应用程序提供服务，但是，我没有发现这两个命令之间有任何区别。 ionic serve 和 ionic s
Java Web 服务。如何在 Java 控制台应用程序中创建 Web 服务？
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 8 年前。 Improve this ques
web-services - 标准 Web 服务 v 安全 Web 服务
作为项目的一部分，我期待着问这个问题。我过去有开发和使用 Web 服务的经验，并且非常熟悉这些服务。但是，有人告诉我，作为下一个项目的一部分，我将需要使用“安全”的 Web 服务。您能否提供一些见解，
cordova - 如何使用 Apache Cordova 调用 wcf 服务/Web 服务
我浏览了很多关于这个问题的信息，但找不到解决方案。这里的问题是，我想使用 Apache Cordova 和 Visual Studio 连接到 wcf。因此，如果有人找到合适的工作解决方案，请发布链接
c# - 从 jquery/javascript 调用 Windows 服务 wcf 服务
我在 Windows 服务中托管了一个 WCF(从 MS 网站示例中选取)，我可以使用 SOAP UI 访问和调用方法。但是，当我尝试使用 jquery 从 Web 应用程序调用相同的方法时，我不断收
php - 如何保护 web 服务，以便只有我的 android 应用程序可以使用我的 web 服务
我们构建了一个 Android 应用程序，它从 Android 向我的 PHP 服务器发送 HTTP 请求。作为响应，Web 服务将 JSON 对象发送到 Android 应用程序以显示结果。就像其
android - 如何将值传递给 Android 应用程序中的 Soap 服务(ASMX 服务)中的标志枚举参数
我想在 android 应用程序中调用 soap web 服务，它需要一个枚举值作为参数，它是一个标志枚举。如何从 Android 应用程序将一些值作为标志枚举传递给此 Web 服务方法？我使用 K
android - 无法在模拟器上运行 Google Play 服务(需要更新 Google Play 服务)
我尝试在模拟器上安装 Google Play。我已按照 Google Dev Site 中的说明进行操作. 使用 ADV 管理器似乎没问题，设备的目标是 Google API 版本 22，但是当我运行

首页

博学

6Ren·AI

商城

开源微服务编排框架：Netflix Conductor

一简介