02、Flink 笔记 - 部署模式-6ren

02、Flink 笔记 - 部署模式

转载作者：大佬之路更新时间：2024-01-07 13:09:06

29

4

一、standalone 部署模式

1、下载安装包

下载安装包地址
有两种安装包类型：
第一种是带 Hadoop依赖的（整合YARN）
第二种是不带 Hadoop依赖的（Standalone模式）
本次部署选择 1.10.1 版本

2、相关配置介绍

2.1 核心目录介绍

bin：启动脚本
conf：配置文件
examples：样例程序
lib：jar存放地
log：日志存放地

2.2 bin 目录

flink：核心运行job
historyserver.sh：历史服务器启动停止脚本
start-cluster.sh：启动集群脚本
stop-cluster.sh：停止集群脚本
yarn-session.sh：运行job的一种模式

2.3、conf 目录

flink-conf.yaml：核心配置
masters：配置jobManager主机
slaves：配置taskManager主机
log4j.properties：配置日志

2.4、flink-conf.yaml 文件

# jobManager 服务主机
jobmanager.rpc.address: localhost
# jobManager 服务端口
jobmanager.rpc.port: 6123
# jobManager 堆大小 默认 1G
jobmanager.heap.size: 1024m
# taskManager 处理内存大小 包括堆内内存和堆外内存
taskmanager.memory.process.size: 1728m
# taskManager 的 slots 个数 默认1
taskmanager.numberOfTaskSlots: 1
# 并行度大小 并行度大小少于等于总共的 slots（taskManager 个数 * slots 个数）
parallelism.default: 1
# 前端页面端口
#rest.port: 8081

3、配置

3.1、配置 flink-conf.yaml

jobmanager.rpc.address: hadoop102

3.2、配置 master

可选：已经在 flink-conf.yaml 配置好

3.3、配置 slaves

hadoop103
hadoop104

4、启动

4.1、分发

4.2、启动

 bin/start-cluster.sh

4.3、web 界面

http://hadoop102:8081

4.4、停止

 bin/stop-cluster.sh

5、部署 wordcount

5.1、DeployWordcount

package com.tan.flink.deploy;

import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.api.java.utils.ParameterTool;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.util.Collector;

public class DeployWordcount {
   
     
    public static void main(String[] args) throws Exception {
   
     
        // 1、创建执行环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        // 2、读取 socket 数据
        ParameterTool tool = ParameterTool.fromArgs(args);
        String host = tool.get("host");
        int port = tool.getInt("port");
        DataStreamSource<String> inputDataStream = env.socketTextStream(host, port);

        // 3、计算
        SingleOutputStreamOperator<Tuple2<String, Integer>> resultDataStream = inputDataStream.flatMap(new FlatMapFunction<String, Tuple2<String, Integer>>() {
   
     
            @Override
            public void flatMap(String input, Collector<Tuple2<String, Integer>> collector) throws Exception {
   
     
                String[] words = input.split(" ");
                for (String word : words) {
   
     
                    collector.collect(new Tuple2<>(word, 1));
                }
            }
        }).keyBy(0)
                .sum(1).setParallelism(2);

        // 4、输出
        resultDataStream.print();

        // 5、启动 env
        env.execute();
    }
}

5.2、打包

5.3、web端提交

submit new job -> add new

entry class：运行主类
parallelism：并行度代码 > 页面设置 > 默认配置
program arguments：程序参数
savepoint path：检查点保存路径

填写相应的参数后 submit
程序的最大的并行度个数小于等于集群的 slots总数否则程序一直处于请求资源状态。

查看标准输出

taskMangers -> 选择其他一台（不确定）-> sdtout

5.4、命令行提交

上传jar 包 lib 目录下

 bin/flink run -c com.tan.flink.deploy.DeployWordcount -p 2 lib/flink-1.0-SNAPSHOT.jar --host 192.168.200.102 --port 9999

-c：运行类
-p：并行度
jar包路径
程序参数

此时程序处于资源申请状态，一直处于Create状态。没有多余的slots可用

查看运行jobs：

 bin/flink list

停止某个job

 bin/flink cancel jobid

二、Yarn 部署模式

需要有Hadoop相关依赖、启动 Hadoop

1、Session-cluster 模式

Session-Cluster 模式需要先启动集群，然后再提交作业，接着会向 yarn 申请一块空间后，资源永远保持不变。如果资源满了，下一个作业就无法提交，只能等到yarn 中的其中一个作业执行完成后，释放了资源，下个作业才会正常提交。所有作业共享 Dispatcher 和 ResourceManager；共享资源；适合规模小执行时间短的作业。
在yarn 中初始化一个 flink 集群，开辟指定的资源，以后提交任务都向这里提交。这个 flink 集群会常驻在 yarn 集群中，除非手工停止。

1.1 启动 session-cluster

bin/yarn-session.sh -n 2 -s 2 -jm 1024 -tm 1024 -nm yarn-deploy-wordcount -d

-n(–container)：TaskManager 的数量。
-s(–slots)：每个 TaskManager 的 slot 数量，默认一个 slot 一个 core，默认每个taskmanager 的 slot 的个数为 1，有时可以多一些 taskmanager，做冗余。
-jm：JobManager 的内存（单位 MB)。
-tm：每个 taskmanager 的内存（单位 MB)。
-nm：yarn 的 appName(现在 yarn 的 ui 上的名字)。
-d：后台执行。

1.2 部署一个应用

 bin/flink run -c com.tan.flink.deploy.DeployWordcount -p 2 lib/flink-1.0-SNAPSHOT.jar --host 192.168.200.102 --port 9999

1.3、查看Yarn 界面

http://ip:8088

1.4、停止 job

yarn application --kill application_1615631116563_0001

1.5、停止 session-cluster

kill -9  进程id

2、per job cluster

一个Job 会对应一个集群，每提交一个作业会根据自身的情况，都会单独向 yarn申请资源，直到作业执行完成，一个作业的失败与否并不会影响下一个作业的正常提交和运行。独享 Dispatcher 和 ResourceManager，按需接受资源申请；适合规模大长时间运行的作业。
每次提交都会创建一个新的 flink 集群，任务之间互相独立，互不影响，方便管理。任务执行完成之后创建的集群也会消失。

2.1 提交一个job

 bin/flink run -m yarn-cluster -c com.tan.flink.deploy.DeployWordcount -p 2 lib/flink-1.0-SNAPSHOT.jar --host 192.168.200.102 --port 9999

29

4

0

文章推荐： 04、Flink 笔记 - 运行环境Enviroment

文章推荐： 03、Flink 笔记 - 运行架构

文章推荐： 16、Flink 笔记 - 状态后端（State backend）

文章推荐： 15、Flink 笔记 - 检查点（CheckPoint）

postgresql - 通过 jenkins 部署 postgres - 持续集成/部署
我在 *.sql 文件中得到了我的数据库转储(表、函数、触发器等)。此时我正在通过 jenkins 部署它们，通过传递执行 shell 命令: sudo -u postgres psql -d my_
api - Web 部署 API(部署 .zip 包)说明
我正在使用网络部署 API 来部署网络包(.zip 文件，由 MSDeploy.exe 创建)以编程方式将包发布到服务器(在发布包之前我们需要做一些其他事情这就是为什么我们不使用 MSDeploy.e
c# - Web 部署 API - 部署 .NET 4.5 应用程序
我们正在使用 Web Deploy 3 的(几乎完全未记录的)“公共(public) API”来创建我们网站的 .zip 包，然后将其同步到服务器: DeploymentBaseOptions des
Clojure 部署？
将 clojure 应用程序制作成可执行文件的最简单方法是什么，例如 http://rawr.rubyforge.org/ ruby 吗？ (exe 和 app 文件也是) 最佳答案使用 leini
Android内核编译/部署
是否可以下载 Android 源代码并针对任何设备进行编译？我想做的是尝试 GSM 代码部分并编译操作系统并将其部署到我的摩托罗拉手机上。谢谢! 最佳答案是的，但这很难，因为大多数手机不共享驱动
c++ - 部署
我正在考虑用 c/c++ 编写需要在大多数个人计算机上运行的 nbody 样式模拟。本质上是一个 O(n^2) 粒子模拟器。因为这需要相当用户友好，所以我希望有 1 个不需要用户安装任何东西的 Wi
Kubernetes 部署 - 状态副本和规范副本之间的区别
需要了解 kubernetes 部署中 kube_deployment_status_replicas 和 kube_deployment_spec_replicas 指标的区别最佳答案简而言之，
Maven 部署 + 源分类器
我正在尝试使用分类器部署 Maven Artifact 。由于我需要源代码和 JAR(我从 GWT 使用它)，我想获得 artifact-version-classifier.jar 和 artifa
PhpStorm 部署 - 每次都要求提供登录凭据
我设置部署以将我的项目代码与存储我的网站的 FTP 服务器上的项目同步。但是，每次尝试同步时，我总是必须登录。我什至检查了记住，但它不起作用! 我正在使用最新的 PhpStorm 2017.1.4
ASP.NET 部署
我在 Visual Studio 2008 中开发了一个 ASP.NET 网站。现在我想在其他机器上部署它。我怎样才能做到这一点？？就像我们为 Windows 应用程序制作安装包一样，我们可以为 AS
Qt Mac 部署
将 QT 框架添加到我的 .app 包中我正在关注 Qt 站点上关于部署的文档。我创建了一个名为 HTTPClient.app 的应用程序我在 Contents 下创建了 Framework 文
eclipse - JavaMe 部署
这个问题不太可能对任何 future 的访客有帮助；它只与一个小的地理区域、一个特定的时间点或一个非常狭窄的情况相关，通常不适用于互联网的全局受众。如需帮助使这个问题更广泛适用，visit the h
部署 CMS 驱动的内容
我正在研究改变我目前创建营销网站的策略。目前，我完全用 PHP 从头开始构建网站，使用一个简单的包含系统。所有代码(以及内容)都存储在文件(而不是数据库)中，允许我使用 Subversion 进行
没有端口的 Kubernetes 部署
我有一个长期运行的服务(在 while 1 循环中)并通过 GCloud pub/sub 处理有效负载，之后它将结果写入数据库。该服务不需要监听任何端口。 Kind=Deployment 的声明性
kubernetes - 如何诊断停滞的Kubernetes部署/部署？
似乎部署已停滞不前。我该如何进一步诊断？ kubectl rollout status deployment/wordpress Waiting for rollout to finish: 2 ou
dart - AngularDart转换/部署
我正在Dart中使用前端的Angular和后端的Shelf构建一个客户端/服务器应用程序。当我执行pub build时，它会按预期生成Dart文件的javascript，但不会替换HTML文件中的Da
Azure 部署 - 授权后无法查看所有存储库
我在 Azure 部署中心的下拉列表中看不到我的所有 Github 组织存储库。 Azure 很久以前就已经被授权了，下拉列表正确地显示了所有的存储库，直到上周我在 DevOps 中玩游戏时，不得不再
部署: Most secure,最优雅的方式来获取登录用户创建的特定集合中的所有对象？
我认为标题几乎说明了一切...对于 Deployd 来说是全新的，所以任何关于如何最好地实现这一点的指示都值得赞赏。最佳答案要获取用户创建的集合中的对象(我假设您使用的是 javascript 库
bash - 使用Bash脚本进行Docker构建/部署
我有一个试图用于CD服务器的部署脚本，但是在编写bash脚本以完成一些所需的步骤(例如运行npm和迁移命令)时遇到了问题。我将如何从该脚本进入容器bash，运行下面的命令，然后退出以完成对更改的提取
Kubernetes 部署 - 传递参数
我想在使用 kubectl 时将参数传递给 Kubernetes 部署命令应用部署文件。示例:在我的部署 .yaml 中，我有如下参数，我想在使用 kubectl apply - f .yaml 运

首页

博学

6Ren·AI

商城