09、Java 任务调度 - DolphinScheduler 使用-6ren

09、Java 任务调度 - DolphinScheduler 使用

转载作者：大佬之路更新时间：2024-01-15 15:51:17

30

4

DolphinScheduler 是一个分布式去中心化，易扩展的可视化 DAG 工作流任务调度系统。本文主要介绍 DolphinScheduler 的基本使用，文中使用到的软件及版本：Java 1.8.0_181、DolphinScheduler 1.3.6、MySQL 5.7、Zookeeper 3.6.3、Centos 7.6。

1、DolphinScheduler 简介

1.1、DolphinScheduler 特性

A、高可靠性 去中心化的多 Master 和多 Worker, 自身支持 HA 功能, 采用任务队列来避免过载，不会造成机器卡死

B、简单易用 DAG 监控界面，所有流程定义都是可视化，通过拖拽任务完成定制 DAG，通过 API 方式与第三方系统集成, 一键部署

C、丰富的使用场景 支持暂停恢复操作. 支持多租户，更好的应对大数据的使用场景. 支持更多的任务类型，如:Spark, Hive, M/R, Python, Sub_process, Shell

D、高扩展性 支持自定义任务类型，调度器使用分布式调度，调度能力随集群线性增长，Master 和 Worker 支持动态上下线

1.2、DolphinScheduler 架构

1.3、DolphinScheduler 流程启动活动图

更多详细的介绍可参考官网：https://dolphinscheduler.apache.org/zh-cn/

2、DolphinScheduler 安装

2.1、单机安装

2.1.1、基础软件安装

a、PostgreSQL (8.2.15+) or MySQL (5.7系列) : 两者任选其一即可, 如MySQL则需要JDBC Driver 5.1.47+
b、JDK (1.8+) : 必装，安装好后需配置 JAVA_HOME 及 PATH 变量
c、ZooKeeper (3.4.6+) ：必装
d、Hadoop (2.6+) or MinIO ：选装，如果需要用到资源上传功能，针对单机可以选择本地文件目录作为上传文件夹(此操作不需要部署Hadoop)；当然也可以选择上传到Hadoop or MinIO集群上

2.1.2、下载安装包并解压

https://dolphinscheduler.apache.org/zh-cn/download/download.html

tar zxvf apache-dolphinscheduler-1.3.6-bin.tar.gz

2.1.3、创建部署用户并赋予目录操作权限

useradd dolphinscheduler;
# 添加密码
echo "dolphinscheduler" | passwd --stdin dolphinscheduler

# 配置sudo免密
sed -i '$adolphinscheduler  ALL=(ALL)  NOPASSWD: NOPASSWD: ALL' /etc/sudoers
sed -i 's/Defaults    requirett/#Defaults    requirett/g' /etc/sudoers

# 修改目录权限
chown -R dolphinscheduler:dolphinscheduler apache-dolphinscheduler-1.3.6-bin

2.1.4、ssh 免密配置

su dolphinscheduler

ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 600 ~/.ssh/authorized_keys

2.1.5、修改数据库信息

vi conf/datasource.properties

如果选择 MySQL，需要把 MySQL 的 JDBC 驱动放到 lib 目录下

spring.datasource.driver-class-name=com.mysql.jdbc.Driver
spring.datasource.url=jdbc:mysql://10.49.196.49:3306/dolphinscheduler?characterEncoding=UTF-8&allowMultiQueries=true
spring.datasource.username=admin
spring.datasource.password=Root_123!

2.1.6、修改运行参数

a、修改 conf/env/dolphinscheduler_env.sh 中环境变量；JAVA_HOME 和 PATH 是必须要配置的，没有用到的可以忽略或者注释掉

export HADOOP_HOME=/opt/soft/hadoop
export HADOOP_CONF_DIR=/opt/soft/hadoop/etc/hadoop
export SPARK_HOME1=/opt/soft/spark1
export SPARK_HOME2=/opt/soft/spark2
export PYTHON_HOME=/opt/soft/python
export JAVA_HOME=/home/hadoop/app/jdk1.8.0_221/bin/java
export HIVE_HOME=/opt/soft/hive
export FLINK_HOME=/opt/soft/flink
export DATAX_HOME=/opt/soft/datax

export PATH=$HADOOP_HOME/bin:$SPARK_HOME1/bin:$SPARK_HOME2/bin:$PYTHON_HOME:$JAVA_HOME/bin:$HIVE_HOME/bin:$FLINK_HOME/bin:$DATAX_HOME/bin
:$PATH

b、将jdk 软链到 /usr/bin/java下

sudo ln -s /home/hadoop/app/jdk1.8.0_221/bin/java /usr/bin/java

c、修改一键部署配置文件 conf/config/install_config.conf 中的各参数

dbtype="mysql"

dbhost="10.49.196.49:3306"
username="admin"
password="Root_123!"

zkQuorum="10.49.196.11:2181"

#安装目录
installPath="/home/dolphinscheduler/dolphinscheduler-1.3.6"

#部署用户
deployUser="dolphinscheduler"

# 业务用到的比如sql等资源文件上传到哪里，可以设置：HDFS,S3,NONE，单机如果想使用本地文件系统，请配置为HDFS，因为HDFS支持本地文件系统；如果不需要资源上传功能请选择NONE。强调一点：使用本地文件系统不需要部署hadoop
resourceStorageType="HDFS"

#这里以保存到本地文件系统为例
#如果想上传到HDFS的话，NameNode启用了HA，则需要将hadoop的配置文件core-site.xml和hdfs-site.xml放到conf目录下，本例即是放到/opt/dolphinscheduler/conf下面，并配置namenode cluster名称；如果NameNode不是HA,则修改为具体的ip或者主机名即可
#defaultFS="hdfs://mycluster:8020"
defaultFS="file:///home/dolphinscheduler/data"

# 资源上传根路径,支持HDFS和S3,由于hdfs支持本地文件系统，需要确保本地文件夹存在且有读写权限
resourceUploadPath="/home/dolphinscheduler/data"

ips="localhost"
masters="localhost"
workers="localhost:default"
alertServer="localhost"
apiServers="localhost"

d、一键部署

install.sh

脚本完成后，会启动以下5个服务：

MasterServer         ----- master服务
WorkerServer         ----- worker服务
LoggerServer         ----- logger服务
ApiApplicationServer ----- api服务
AlertServer          ----- alert服务

e、启停服务

进入到安装目录，可以启停个服务。

启停所有服务

./bin/stop-all.sh
./bin/start-all.sh

启停Master

./bin/dolphinscheduler-daemon.sh start master-server
./bin/dolphinscheduler-daemon.sh stop master-server

启停Worker

./bin/dolphinscheduler-daemon.sh start worker-server
./bin/dolphinscheduler-daemon.sh stop worker-server

启停Api

./bin/dolphinscheduler-daemon.sh start api-server
./bin/dolphinscheduler-daemon.sh stop api-server

启停Logger

./bin/dolphinscheduler-daemon.sh start logger-server
./bin/dolphinscheduler-daemon.sh stop logger-server

启停Alert

./bin/dolphinscheduler-daemon.sh start alert-server
./bin/dolphinscheduler-daemon.sh stop alert-server

2.2、集群安装

集群安装和单机安装大部分都是一样的，具体可参考官网文档，这里就不说明了。

3、DolphinScheduler 使用

进入控制台 http://10.49.196.11:12345/dolphinscheduler (admin/dolphinscheduler123)，点击“项目管理”，新建一个项目，然后定义工作流，工作流支持多种任务：SHELL、SQL、HTTP、MapReduce、SPARK 等等。

“工作流实例“，”任务实例“可以查看任务执行的日志。

详细的使用说明可参考官网文档：https://dolphinscheduler.apache.org/zh-cn/docs/latest/user_doc/system-manual.html。

30

4

0

文章推荐： 06、Java 任务调度 - Azkaban 入门实战(Azkaban 使用)

文章推荐： 04、Java 任务调度 - Quartz 入门实战

文章推荐： 09、Quartz Simple类型触发器的misfire策略

文章推荐： 03、Quartz QRTZ_FIRED_TRIGGERS表的作用

c# - 任务.WaitSubset/任务.WaitN？
Task.WaitAll 方法等待所有任务，Task.WaitAny 方法等待一个任务。如何等待任意N个任务？用例:下载搜索结果页面，每个结果都需要一个单独的任务来下载和处理。如果我使用 WaitA
f# - 任务.任务.运行 : port from C# to F#
我正在查看一些像这样的遗留 C# 代码: await Task.Run(() => { _logger.LogException(LogLevel.Error, mes
php - Linux cron 任务 - 如何添加和运行 cron 任务？
如何在 Linux 中运行 cron 任务？关注此Q&A ，我有这个 cron 任务要运行 - 只是将一些信息写入 txt 文件， // /var/www/cron.php $myfile = fo
ansible playbook 按此顺序执行 : task, 角色、任务、角色、任务
原谅我的新手问题，但我想按顺序执行三个任务并在剧本中使用两个角色: 任务角色任务角色任务这是我到目前为止(任务，角色，任务): --- - name: Task Role Task ho
依赖于其他任务输出的 Gradle 任务？
我有一个依赖于 installDist 的自定义任务 - 不仅用于执行，还依赖于 installDist 输出: project.task('run', type: JavaExec, depends
Wix:如何强行杀死进程/任务？
从使用 Wix 创建的 MSI 运行卸载时，我需要在尝试删除任何文件之前强行终止在后台运行的进程。主要应用程序由一个托盘图标组成，它反射(reflect)了 bg 进程监控本地 Windows 服务的
自动启动我的服务器和应用程序的 Ant 任务
我想编写 Ant 任务来自动执行启动服务器的任务，然后使用我的应用程序的 URL 打开 Internet Explorer。显然我必须执行 startServer先任务，然后 startApplic
asynchronous - 任务.继续困惑
使用 ASP.NET 4.5，我正在尝试使用新的 async/await 玩具。我有一个 IDataReader 实现类，它包装了一个特定于供应商的阅读器(如 SqlDatareader)。我有一个简
按任务组过滤可用的 Gradle 任务
使用命令 gradle tasks可以得到一份所有可用任务的报告。有什么方法可以向此命令添加参数并按任务组过滤任务。我想发出类似 gradle tasks group:Demo 的命令筛选所有任务并
远程删除目录的 Ant 任务
除了sshexec，还有什么办法吗？任务要做到这一点？我知道您可以使用 scp 复制文件任务。但是，我需要执行其他操作，例如检查是否存在某些文件夹，然后将其删除。我想使用类似 condition 的东
从字符串中挑选单词的 Ant 任务
假设我有字符串 - "D:\ApEx_Schema\Functions\new.sql@@\main\ONEVIEW_Integration\3" 我需要将以下内容提取到 diff 变量中 - 文档名
用于确定文件是否为只读的 Ant 任务
我需要编写一个 ant 任务来确定某个文件是否是只读的，如果是，则失败。我想避免使用自定义选择器来为我们的构建系统的性质做这件事。任何人都有任何想法如何去做？我正在使用 ant 1.8 + ant-c
task - 线程池和上下文切换(任务)？
这是一个相当普遍的计算机科学问题，并不特定于任何操作系统或框架。因此，我对与在线程池上切换任务相关的开销感到有些困惑。在许多情况下，给每个作业分配自己的特定线程是没有意义的(我们不想创建太多硬件线程
用于检查主机在关机后是否真的离线的 Ansible 任务
我正在使用以下 Ansible playbook 一次性关闭远程 Ubuntu 主机列表: - hosts: my_hosts become: yes remote_user: my_user
Ant 任务？
如何更改 Ant 中的当前工作目录？ Ant documentation没有任务，在我看来，最好的做法是不要更改当前工作目录。但让我们假设我们仍然想这样做——你会如何做到这一点？谢谢! 最佳答案
每三天执行一次 Cron 任务
是否可以运行 cronjob每三天一次？或者也许每月 10 次。最佳答案每三天运行一次 - 或更短时间在月底运行一次。 (如果上个月有 31 天，它将连续运行 2 天。) 0 0 */3 * *
使用存储库中的工件作为构建工具的 Gradle 任务
如何在 Gradle 任务中执行托管在存储库中的工具？在我的具体情况下，我正在使用 Gradle 构建一个 Android 应用程序。我添加了一项任务，将一些 protobuf 数据从文本编码为二进
gradle - 任务，子项目和配置之间的关联
我的项目有下一个结构: Root |- A |- C (depends on A) \- B (depends on A) 对于所有子项目，我们使用自己的插件生成资源:https://githu
hadoop - Hadoop如何分配MapReduce作业的数据/任务？
我设置了一个具有4个节点的Hadoop群集，其中一个充当HDFS的NameNode以及Yarn主节点。该节点也是最强大的。现在，我分发了2个文本文件，一个在node01(名称节点)上，一个在node
具有更多受让人的 TFS 任务
在 TFS 2010 中为多个用户存储任务的最佳方式是什么？我只能为一项任务分配一个。 (例如:当我计划向所有开发人员演示时) (这是一个 Scrum Msf 敏捷项目，其中任务是用户故事的一部分)

首页

博学

6Ren·AI

商城