02、Storm 核心概念-6ren

02、Storm 核心概念

转载作者：大佬之路更新时间：2024-01-07 13:06:22

26

4

Apache Storm从一端读取实时数据的原始流，并将其传递通过一系列小处理单元，并在另一端输出处理/有用的信息。

下图描述了Apache Storm的核心概念。

现在让我们仔细看看Apache Storm的组件 –

组件	描述
Tuple	Tuple是Storm中的主要数据结构。它是有序元素的列表。默认情况下，Tuple支持所有数据类型。通常，它被建模为一组逗号分隔的值，并传递到Storm集群。
Stream	流是元组的无序序列。
Spouts	流的源。通常，Storm从原始数据源（如Twitter Streaming API，Apache Kafka队列，Kestrel队列等）接受输入数据。否则，您可以编写spouts以从数据源读取数据。“ISpout”是实现spouts的核心接口，一些特定的接口是IRichSpout，BaseRichSpout，KafkaSpout等。
Bolts	Bolts是逻辑处理单元。Spouts将数据传递到Bolts和Bolts过程，并产生新的输出流。Bolts可以执行过滤，聚合，加入，与数据源和数据库交互的操作。Bolts接收数据并发射到一个或多个Bolts。 “IBolt”是实现Bolts的核心接口。一些常见的接口是IRichBolt，IBasicBolt等。

让我们来看一个“Twitter分析”的实时示例，看看如何在Apache Storm中建模。下图描述了结构。

“Twitter分析”的输入来自Twitter Streaming API。Spout将使用Twitter Streaming API读取用户的tweets，并作为元组流输出。来自spout的单个元组将具有twitter用户名和单个tweet作为逗号分隔值。然后，这个元组的蒸汽将被转发到Bolt，并且Bolt将tweet拆分成单个字，计算字数，并将信息保存到配置的数据源。现在，我们可以通过查询数据源轻松获得结果。

拓扑

Spouts和Bolts连接在一起，形成拓扑结构。实时应用程序逻辑在Storm拓扑中指定。简单地说，拓扑是有向图，其中顶点是计算，边缘是数据流。

简单拓扑从spouts开始。Spouts将数据发射到一个或多个Bolts。Bolt表示拓扑中具有最小处理逻辑的节点，并且Bolts的输出可以发射到另一个Bolts作为输入。

Storm保持拓扑始终运行，直到您终止拓扑。Apache Storm的主要工作是运行拓扑，并在给定时间运行任意数量的拓扑。

任务

现在你有一个关于Spouts和Bolts的基本想法。它们是拓扑的最小逻辑单元，并且使用单个Spout和Bolt阵列构建拓扑。应以特定顺序正确执行它们，以使拓扑成功运行。Storm执行的每个Spout和Bolt称为“任务”。简单来说，任务是Spouts或Bolts的执行。在给定时间，每个Spout和Bolt可以具有在多个单独的螺纹中运行的多个实例。

进程

拓扑在多个工作节点上以分布式方式运行。Storm将所有工作节点上的任务均匀分布。工作节点的角色是监听作业，并在新作业到达时启动或停止进程。

流分组

数据流从Spouts流到Bolts，或从一个Bolts流到另一个Bolts。流分组控制元组在拓扑中的路由方式，并帮助我们了解拓扑中的元组流。有四个内置分组，如下所述。

随机分组

在随机分组中，相等数量的元组随机分布在执行Bolts的所有工人中。下图描述了结构。

字段分组

元组中具有相同值的字段组合在一起，其余的元组保存在外部。然后，具有相同字段值的元组被向前发送到执行Bolts的同一进程。例如，如果流由字段“字”分组，则具有相同字符串“Hello”的元组将移动到相同的工作者。下图显示了字段分组的工作原理。

全局分组

所有流可以分组并向前到一个Bolts。此分组将源的所有实例生成的元组发送到单个目标实例（具体来说，选择具有最低ID的工作程序）。

所有分组

所有分组将每个元组的单个副本发送到接收Bolts的所有实例。这种分组用于向Bolts发送信号。所有分组对于连接操作都很有用。

26

4

0

文章推荐： 04、Storm 工作流程

文章推荐： 03、Storm 集群架构

文章推荐： 11、Storm 应用程序

文章推荐： 10、Storm 在雅虎财经上的应用

c - 移动所有线程以使用其他 CPU 核心，以便一个线程可以使用其他 CPU 核心？
Linux 有许多跨(假设是 2 个)CPU 内核执行的线程和进程。我希望我的单线程 C/C++ 应用程序成为 CPU0 上的唯一线程。我如何“移动”所有其他线程以使用 CPU1？我知道我可以使用
c# - EF 核心 2、.NET 核心 2 :How do I query the same column for multiple conditions using IQueryable?
我有一个类似于下图的数据库表 Table with 2 columns (UserId and value) 我将传递 UserId 和 2 个字符串。例如:userId: 1, key1: h1,
asp.net-mvc - 我可以使用 Entity Framework 6(不是 Entity Framework 核心)开发 Asp.net 核心 MVC 应用程序吗？
我想在我的新项目中使用 ASP.NET Core，因为我听说它更快。但是，该项目将使用广泛的数据库访问功能，Entity Framework Core 不支持其中一些功能。我想知道，是否可以使用 En
asp.net-core - 应用程序中断访问 dbcontext、Asp .net 核心 web api 2.0 与 Entity Framework 核心 2.0 数据库第一种方法
我已经使用 EntityFrameworkCore.SqlServer 2.0 开发了 asp .net core wep api 2.0 应用程序。它是使用数据库优先方法开发的。当尝试使用 dbco
angular - 核心、共享和功能模块中应该包含哪些内容？
我已经阅读了很多关于这个主题的文章，但我仍然无法处理这个问题。对不起，如果它是重复的，无论如何! 所以基本上，我正在从头开始构建一个 Angular 应用程序，并且我想按照最佳约定来组织我的代码。我有
multithreading - 强制MPI使用指定的编号。核心
我对MPI还是陌生的，所以如果这是一个琐碎的问题，请原谅我。我有一个四核CPU。我想运行一个在单个内核上使用两个进程的OpenMPI C++程序。有什么办法吗？如果是这样，那又如何？我提到了this
java - 核心-java异常处理
下面是一个传播异常处理机制的类问题，所需的输出是异常。任何人都可以解释为什么输出是异常，在此先感谢。 Class Question { public void m1() throws Excep
c - 核心。如何获取获得CPU时间片的进程名和pid
我想打印每个获得 CPU 时间片的进程的 name 和 pid。可能吗？最佳答案对于单个流程，您可以在以下位置获取此信息: /proc//stat 第14和第15个字段分别代表在用户态和内核态花费
windows - 识别特定线程使用的处理器(核心)
我想知道是否可以识别具有特定 thread-id 的线程使用的物理处理器(核心)？例如，我有一个多线程应用程序，它有两 (2) 个线程(例如，thread-id = 10 和 thread-id =
solr - 使用身份验证在控制台中创建 Solr 核心
我有一个需要身份验证的 Solr 核心。假设我有一个用户，密码为password。当我现在尝试在控制台中创建一个 Solr 核心时 bin\solr create -c test 我收到 HTTP 错
c# - EF 核心 - 为没有连接字符串和另一个类库中的数据库创建迁移
我想为与使用它的项目不同的类库中的第二个和后续数据库创建迁移。有皱纹。我永远不会知道连接字符串，直到用户登录并且我可以从目录数据库 (saas) 中获取它。对于目录数据库，我使用了来自 this 的
haskell - 编译到 GHC 核心
我想为一种可以产生 GHC Core 的简单语言创建一个前端。然后我想获取这个输出并通过正常的 GHC 管道运行它。根据this page , 不能直接通过 ghc 命令实现。我想知道是否有任何方法可
bluetooth-lowenergy - 核心-蓝牙双向通信
阅读文档，我构建了 2 个使用 BLE 连接 2 个 iDevices 的应用程序。一个设备是中央设备，另一个是外围设备。 Central在寻找Peripheral，当找到它时，探索它的服务和特性，
.net - 如何将参数传递给排队的后台任务(.net 核心)
在我的网络应用程序中，我对长时间运行的任务进行了操作，我想在后台调用此任务。因此，根据文档 .net core 3.1 Queued background tasks我为此使用这样的代码: publi
solr - 如何使用现有数据创建 solr 核心？
Solr 1.4 Enterprise Search Server 建议对核心副本进行大量更新，然后将其换成主核心。我正在按照以下步骤操作: 创建准备核心:http://localhost:8983/
jquery - 核心 jQuery 库的单元测试
它们是否存在，如果存在，文档和代码在哪里？最佳答案它们位于 Git 的 test 目录中。 https://github.com/jquery/jquery/tree/master/test 关于
compilation - 如何将参数传递给保存的 SBCL 核心？
我有一个 Lisp (SBCL 1.0.40.0.debian) 应用程序 (myfitnessdata)，它使用以下代码来处理命令行参数: (:use :common-lisp) (:export
performance - 阅读 GHC 核心
Core是GHC的中间语言。阅读Core可以帮助你更好地了解程序的性能。有人向我索要有关阅读 Core 的文档或教程，但我找不到太多。有哪些文档可用于阅读 GHC Core？这是我迄今为止发现的内
azure - 核心 WebJob 未观察到应用程序设置
我有一个核心 WebJob 部署到 Azure Web 应用程序中。我正在使用WebJobs version 3.0.6 . 我注意到，WebJob 代码不会立即拾取对连接字符串和应用程序设置的更改(
.net - 核心 .NET 运行时中的断点？
我有一个在内部构造和使用 SqlConnection 类的第三方库。我可以从该类继承，但它有大量重载，到目前为止我一直无法找到合适的重载。我想要的是将参数附加到正在使用的连接字符串。有没有办法在 .

首页

博学

6Ren·AI

商城