java - 了解创建的 StreamProcessor 实例数以及流任务是否共享同一个流处理器实例？-6ren

java - 了解创建的 StreamProcessor 实例数以及流任务是否共享同一个流处理器实例？

转载作者：行者123 更新时间：2023-12-04 14:16:02

我想更详细地了解 StreamThread、StreamTask 之间的关系以及当我们创建时有多少 StreamProcessor 实例:

具有多个分区的源 kafka 主题，例如 6。
我只保留 ONE StreamThread (num.stream.threads=1)

我保留了一个简单的处理器拓扑结构:

source_topic --> Processor1 --> Processor2 --> Processo3 --> sink_topic

每个处理器简单地转发到链中的下一个处理器。其中一个处理器的片段。我正在使用低级 Java API。

public class Processor1 implements Processor<String, String> {

    private ProcessorContext context;
    public Processor1() {
    
    }

    @Override
    @SuppressWarnings("unchecked")
    public void init(ProcessorContext context) {
        this.context = context
    }

    @Override
    public void punctuate(long timestamp) {
        // TODO Auto-generated method stub
    }

    @Override
    public void close() {
        // TODO Auto-generated method stub

    }

    @Override
    public void process(String key, String value) {
        System.out.println("Inside Processor1#process() method");
        context.forward(key, value);
    }
}

主驱动程序应用程序片段:

Topology topology = new Topology();

topology.addSource("SOURCE", "source-topic-data");
topology.addProcessor("Processor1", () -> new Processor1(), "SOURCE");
topology.addProcessor("Processor2", () -> new Processor2(), "Processor1");
topology.addProcessor("Processor3", () -> new Processor3(), "Processor2");
topology.addSink("SINK", "sink-topic-data", "Processor3");

Properties settings = new Properties();
settings.put(StreamsConfig.NUM_STREAM_THREADS_CONFIG, 1);
StreamsConfig config = new StreamsConfig(settings);
KafkaStreams streams = new KafkaStreams(topology, config);
streams.start();

有了这样的安排，我有以下问题:

将创建多少个处理器实例(Processor1、Processor2、Processor3)？
据我了解，将有六个流任务。是为每个 Stream 任务 创建一个新的处理器实例，还是它们“共享”相同的 Processor 实例？
创建Stream Thread 时，它会创建一个新的processor 实例吗？
Stream Tasks 是否作为 Stream Threads 创建的一部分创建？

(新问题添加到原始列表)

在这种情况下，单个流线程 将具有 六个流任务。 stream thread 是否逐个执行这些 stream tasks，有点像“循环”。 流任务是否作为单独的“线程”运行。基本上，无法理解单个流线程如何同时/并行运行多个流任务？

下面是打印出来的拓扑结构:


KafkaStreams processID: 1602fe25-57ab-4620-99df-fd0c15d96e42
    StreamsThread appId: my-first-streams-application
        StreamsThread clientId: my-first-streams-application-1602fe25-57ab-4620-99df-fd0c15d96e42
        StreamsThread threadId: my-first-streams-application-1602fe25-57ab-4620-99df-fd0c15d96e42-StreamThread-1
        Active tasks:
            Running:                                StreamsTask taskId: 0_0
                                            ProcessorTopology:
                            SOURCE:
                                topics:     [source-topic-data]
                                children:   [Processor1]
                            Processor1:
                                children:   [Processor2]
                            Processor2:
                                children:   [Processor3]
                            Processor3:
                                children:   [SINK]
                            SINK:
                                topic:      sink-topic-data
                    Partitions [source-topic-data-0]
                                StreamsTask taskId: 0_1
                                            ProcessorTopology:
                            SOURCE:
                                topics:     [source-topic-data]
                                children:   [Processor1]
                            Processor1:
                                children:   [Processor2]
                            Processor2:
                                children:   [Processor3]
                            Processor3:
                                children:   [SINK]
                            SINK:
                                topic:      sink-topic-data
                    Partitions [source-topic-data-1]
                                StreamsTask taskId: 0_2
                                            ProcessorTopology:
                            SOURCE:
                                topics:     [source-topic-data]
                                children:   [Processor1]
                            Processor1:
                                children:   [Processor2]
                            Processor2:
                                children:   [Processor3]
                            Processor3:
                                children:   [SINK]
                            SINK:
                                topic:      sink-topic-data
                    Partitions [source-topic-data-2]
                                StreamsTask taskId: 0_3
                                            ProcessorTopology:
                            SOURCE:
                                topics:     [source-topic-data]
                                children:   [Processor1]
                            Processor1:
                                children:   [Processor2]
                            Processor2:
                                children:   [Processor3]
                            Processor3:
                                children:   [SINK]
                            SINK:
                                topic:      sink-topic-data
                    Partitions [source-topic-data-3]
                                StreamsTask taskId: 0_4
                                            ProcessorTopology:
                            SOURCE:
                                topics:     [source-topic-data]
                                children:   [Processor1]
                            Processor1:
                                children:   [Processor2]
                            Processor2:
                                children:   [Processor3]
                            Processor3:
                                children:   [SINK]
                            SINK:
                                topic:      sink-topic-data
                    Partitions [source-topic-data-4]
                                StreamsTask taskId: 0_5
                                            ProcessorTopology:
                            SOURCE:
                                topics:     [source-topic-data]
                                children:   [Processor1]
                            Processor1:
                                children:   [Processor2]
                            Processor2:
                                children:   [Processor3]
                            Processor3:
                                children:   [SINK]
                            SINK:
                                topic:      sink-topic-data
                    Partitions [source-topic-data-5]

            Suspended:
            Restoring:
            New:
        Standby tasks:
            Running:
            Suspended:
            Restoring:
            New:

最佳答案

How many instances of processors (Processor1, Processor2, Processor3) will be created?

在您的示例中，每个 6 个。每个任务都将实例化拓扑 的完整副本。 (参见 https://github.com/apache/kafka/blob/2.4/streams/src/main/java/org/apache/kafka/streams/processor/internals/StreamThread.java#L355 ；注意:Topology 是程序的逻辑表示，在运行时实例化为 ProcessorTopology)

As per my understanding, there will be SIX stream tasks. Is a new instance of processor created for each Stream task or they "share" the same Processor instance?

每个任务都有自己的 Processor 实例——它们不共享。

When a Stream Thread is created, does it create a new instance of processor?

没有。创建任务时，它将创建新的 Processor 实例。

Are Stream Tasks created as part of Stream Threads creation?

没有。任务是根据分区/任务分配在重新平衡期间创建的。 KafkaStreams 在其调用 TaskManager#createTasks()

的内部 cosumner 上注册了一个 StreamsRebalanceListener

更新(随着问题的扩展):

In this scenario a single stream thread will have SIX stream tasks. Does a stream thread execute these stream tasks one-by-one, sort of "in-a-loop". Do stream tasks run as a separate "thread". Basically, not able to understand how a single stream thread run multiple stream tasks at the same time/parallely?

是的，StreamsThread 将循环执行任务。没有其他线程。因此，分配给同一线程的任务不会同时/并行执行，而是一个接一个地执行。(参见 https://github.com/apache/kafka/blob/2.4/streams/src/main/java/org/apache/kafka/streams/processor/internals/AssignedStreamsTasks.java#L472——每个 StreamThread 只使用一个 内部使用 AssignedStreamsTasks 和 AssignedStandbyTasks 的 TaskManager。)

关于java - 了解创建的 StreamProcessor 实例数以及流任务是否共享同一个流处理器实例？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/60133007/

文章推荐： firefox - 我可以停止显示 Firefox webRTC 共享指示器吗？

文章推荐： tensorflow - 何时在 tensorflow 中使用 model.predict(x) 与 model(x)

python - 在用户定义类的实例上启用列表(实例)或元组(实例)
有没有一种方法可以使用标准类型构造函数(例如 int、set、dict、list、tuple 等)以用户定义的方式将用户定义类的实例强制转换为其中一种类型？例如 class Example:
grails - grails对象引用了未保存的 transient 实例-在刷新之前保存 transient 实例
我知道这个问题在Stackoverflow中有很多问题，但是即使有很多答案，这些答案也帮不了我什么，也没有找到答案。在我的WebAPP中，它可以正常工作，但是当我将其转换为API时，它失败了(主题标
java - 我新建了一个 Integer 实例，但它给了我一个 Long 实例
这个问题已经有答案了: Why does the ternary operator unexpectedly cast integers? (3 个回答) 已关闭 9 年前。最近遇到一个Java的陷
ios - 必须先配置默认 FirebaseApp 实例，然后才能初始化 defaultFirebaseApp 实例
我尝试使用 FirebaseApp.configure() 配置 Firebase，但遇到以下崩溃: *** Terminating app due to uncaught exception 'c
c# - 对象引用未保存的 transient 实例在刷新之前保存 transient 实例
我有一个自连接员工实体类，其中包含与其自身相关的 id、name 和 ref 列。我想创建它的新实例并将其保存到数据库。首先我创建了一个 Employee 类的实例并将其命名为 manager。然后
java - 对象是未保存的 transient 实例 - 在合并之前保存 transient 实例
我有一个用于添加新公寓的表单，在该表单中我有一个下拉列表，用户可以在其中选择负责的人员。显然，当您从下拉列表中选择并尝试保存公寓时，我的应用程序认为该人已被修改。它给了我下面的错误，指示我应该首先保
salesforce - 检索 salesforce 实例 URL 而不是 Visualforce 实例
从 Visualforce 页面，我需要检索我们组织的 salesforce 实例的 URL，而不是 Visual Force URL。例如我需要https://cs1.salesforce.com
hibernate - TransientObjectException - 对象引用未保存的 transient 实例 - 在刷新之前保存 transient 实例
我遇到了一些可能的问题答案，但这是关于从 Hibernate 3.4.0GA 升级到 Hibernate 4.1.8 的问题。所以这曾经在以前的版本下工作，我已经四处搜索了为什么它在这个新版本中出现了
hibernate - 交叉依赖问题:对象引用未保存的 transient 实例，在刷新之前保存 transient 实例
似乎一遍又一遍地问这个问题，我仍然找不到解决我问题的答案。我在下面有一个域模型。每个新创建或更新的“安全用户”都需要我确保其具有配置文件，如果没有，则创建一个新的配置文件并分配给它。配置文件的要求相
java - JPA 对象引用未保存的 transient 实例 - 在刷新之前保存 transient 实例
我很难调试为什么 JPA 不级联我的 @ManyToMany 关系。我发现的所有答案都与缺少级联语句有关。但我确实拥有它们并且仍然得到: Caused by: org.hibernate.Transi
android - firebase 实例 ID 与 android 实例 ID
Play 服务 API 表明有一个叫做 Instance ID 的东西但是，在 Android Studio 中包含以下内容后，我无法导入 InstanceID 类 compile "com.goo
hibernate - 对象引用未保存的 transient 实例 - 在刷新 Hibernate 之前保存 transient 实例
我正在使用 Seam 框架。我有 2 个实体: 请求.java @Entity @Table(name = "SRV_REQUEST") public class Request { private
haskell - 如何构造带约束的 Applicative 实例(类似于使用 ContT 构造 Monad 实例)
This question处理构建一个适当的Monad来自单子(monad)的实例，但仅在某些约束下 - 例如Set .诀窍是将其包装成 ContT ，它将约束推迟到包装/展开其值。现在我想对 Ap
java - 对象引用未保存的 transient 实例 - 在使用 hibernate 空间刷新之前保存 transient 实例
我正在尝试执行此查询: StringBuffer sb = new StringBuffer(); sb.append("select p from PointsEntity p " + "where
java - 单个 MySQL 实例 + Hibernate Config 与多个 MySQL 实例
我试图了解是否可以更改我的 hibernate 配置并使用单个 MySQL 实例(而不是我当前拥有的多个 MySQL 实例): 我有一个使用 hibernate 的 Java 应用程序，与 2 个模式
android - 选项卡更改时保留以前加载的 fragment 实例，而不是在 android 中创建新 fragment 实例
我有一个选项卡滑动布局，其中包括四个选项卡，每个选项卡都有自己的布局和 fragment ，在我的主要 Activity 布局中，viewpager 参与更改选项卡。特定 View (选项卡)在应用程
mysql - 无法远程连接到在 EC2 实例(非 RDS)上运行的 MySQL 实例
我看到很多帖子声称他们正在运行 MySql 的 RDS 实例，但无法连接到该实例，但我没有运行 RDS。我使用 EC2 实例来托管我的 WordPress 博客，该博客是使用 Web 平台安装程序安
amazon-web-services - 从我的 ec2 实例 ssh 到我的 ec2 实例
因为我在我的 ec-2 实例上的 python 虚拟环境中运行应用程序( Airflow )，并且我想在同一个 ec2 实例上的默认 python 环境中运行命令，所以我认为 ssh 到我自己的实例更
java - 对象引用未保存的 transient 实例 - 在刷新 hibernate JPA 之前保存 transient 实例
这个问题已经有答案了: How to fix the Hibernate "object references an unsaved transient instance - save the tra
vue.js - vue 实例 (app1) 调用另一个 vue 实例 (app2) 的最佳方式
例子: run APP1 .. ... run APP1 ... run APP2 如何在 APP2 中对 Vue 说我需要调用 APP1？

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

java - 了解创建的 StreamProcessor 实例数以及流任务是否共享同一个流处理器实例？