- Java锁的逻辑(结合对象头和ObjectMonitor)
- 还在用饼状图?来瞧瞧这些炫酷的百分比可视化新图形(附代码实现)⛵
- 自动注册实体类到EntityFrameworkCore上下文,并适配ABP及ABPVNext
- 基于Sklearn机器学习代码实战
Kafka(Apache Kafka) 是一种分布式流数据平台,最初由LinkedIn开发,并于后来捐赠给Apache软件基金会,成为了一个Apache顶级项目。它被设计用于处理大规模、实时的数据流,并为构建高吞吐量、容错性强的数据流应用程序提供支持。Kafka的特点使得它在日志收集、实时处理、事件驱动架构、监控等领域得到广泛应用.
以下是Kafka的一些关键特点和概念:
总的来说,Kafka在大数据、实时处理和数据流领域具有重要地位,其强大的分布式架构和丰富的功能使其成为许多企业处理实时数据的首选平台.
Kafka是一个非常灵活和功能强大的分布式流数据平台,适用于多种业务场景。以下是一些Kafka常见的用途和业务场景:
哪些行业都在用kafka:
broker : kafka节点, 就是安装的每一个kafka服务 。
producer : 生产者, 发消息的 。
consumer : 消费者, 读消息的 。
zookeeper : 信息中心, 记录kafka的各种信息的地方 。
controller : 其中的一个broker, 作为leader身份来负责管理整个集群. 如果挂掉, 借助zk进行重新选主 。
副本分类
AR(Assigned Replicas) 是指为每个分区分配的副本集合。在Kafka中,每个分区可以有多个副本,其中一个副本被选举为leader,其他副本为follower。AR是指包括leader副本在内的所有副本的集合.
ISR(In-Sync Replicas): ISR是指与主副本保持同步的副本集合。在Kafka中,一个主题分区通常有多个副本,但只有与主副本保持同步的副本才能被认为是ISR中的成员。在正常情况下,ISR中的所有副本都已经同步了高水位之前的消息,因此可以确保消息的一致性和可靠性.
OSR(Out-of-Sync Replicas): OSR指的是已经落后于主副本的副本。这些副本的同步进度较慢,可能由于网络延迟或其他原因。当副本变得不再与主副本同步时,它将被移出ISR。这是为了确保ISR中的副本始终保持高水位之前消息的同步状态.
这些概念在Kafka中用于管理副本的分配和同步,以确保数据的可靠性和一致性.
AR = ISR + OSR 。
offset: 偏移量(索引),消息消费的具体位置,每个消费者都有自己的偏移量 。
HW(High Watermark): 高水位是一个标记,表示已被确认和提交的消息的位置。HW之前的所有消息都被认为是已经被处理并且已经提交的。在消费者的视角中,只有高水位之后的消息是尚未被处理的。高水位只记录在ISR(In-Sync Replicas)中,用于确保消息的一致性和可见性。在一组ISR中,每个Follower同步消息的速度可能不同,HW指向的始终是所有ISR中最慢的消息位置.
LEO(Log End Offset): 日志末尾偏移量是一个指示,表示当前分区的下一条消息的偏移量。LEO是分区中所有副本中最大的偏移量,包括ISR和OSR(Out-of-Sync Replicas)中的副本。LEO指示了分区中尚未被消费的消息的位置.
总结一下,HW是已被确认和提交的消息的位置,用于消息的一致性和可见性。LEO是分区中下一条消息的偏移量,用于指示尚未被消费的消息的位置。这两个偏移量在Kafka中起到了重要的作用,影响了消息的处理和消费.
那么这三者有什么关系呢?
比如在副本数等于3的情况下,消息发送到Leader A之后会更新LEO的值,Follower B和Follower C也会 实时拉取Leader A中的消息来更新自己,HW就表示A、B、C三者同时达到的日志位移,也就是A、B、 C三者中LEO最小的那个值。由于B、C拉取A消息之间延时问题,所以HW一般会小于LEO,即 LEO>=HW.
kafka每个主题可以有多个分区, 每个分区在它所在的broker上创建一个文件夹, 每个分区又分为多个段(Segment 相当于把海量消息拆分到了多个文件中, 防止消息文件过大导致检索速度缓慢), 每个段两个文件 log & index , log文件里顺序存消息, index文件里存消息的索引 段的命名直接以当前段的第一条消息的offset为名 。
日志(Log): Kafka使用日志来持久化存储消息,每个分区都有一个对应的日志。日志是一个有序的、不可变的消息序列。每当有新的消息到达,它们会被追加到分区的日志末尾,形成一个逐渐增长的日志段(Log Segment)。每个日志段都有一个固定的大小,一旦达到大小限制,就会被关闭并创建新的日志段.
日志的追加操作是高效的,因为它只需要将新的消息附加到日志段的末尾,不需要移动现有数据。由于日志是不可变的,一旦消息被写入,就不能更改或删除。这种特性使得Kafka的数据持久性和不变性得到了保证.
消息索引(Index): 消息索引是一个用于加速消息查找的关键组件。每个日志段都有一个对应的消息索引,它存储了一些重要的消息偏移量和物理偏移量的映射关系。索引使得Kafka能够快速定位特定偏移量的消息,而不需要逐个扫描整个日志.
消息索引通常存储在内存中,它分为两部分:内存索引和磁盘索引。内存索引包含了一部分消息偏移量和其在日志中的物理位置的映射,它使得最常见的消息查找可以在内存中完成,非常快速。磁盘索引包含了完整的索引信息,它使得整个索引数据不需要全部加载到内存中,而是按需加载,节省了内存空间.
通过消息索引,Kafka可以迅速定位消息,以便进行消费、回溯和处理。这对于支持高吞吐量的数据处理和实时消费非常重要.
Consumer获取offset = 6的Message 。
00000000000000000000
的分段中 00000000000000000000.index
中找到offset = 6的Position值 00000000000000000000.log
中直接找到字节偏移量为150的位置开始读取消息 segment.bytes
参数配置的大小)时,这个日志段会被关闭并被认为是"不活跃的"。不活跃的日志段会在不影响正在进行的写入的情况下,被删除。这样,旧的消息将会被清除,释放磁盘空间。 segment.ms
参数。当一个日志段被关闭后,如果它的创建时间超过了这个保留时间,它将会被删除。这样可以确保不再需要的旧数据会被及时清理。 retention.ms
参数。如果一个主题被设置了保留时间,并且消息的时间戳早于这个保留时间,那么这些消息将会被删除。这个策略确保了主题中不再需要的消息会被自动清理。 cleanup.policy
参数设置为 compact
),Kafka会保留每个键的最新消息,而旧的消息将被删除。这个策略保留了每个键的最新状态,适用于存储状态信息。 在Kafka中,删除策略的最小单位是日志段(Log Segment)。当满足某个删除条件时,Kafka会删除整个不再需要的日志段,包括其中的消息数据和对应的索引数据.
最后此篇关于Kafka-基础的文章就讲到这里了,如果你想了解更多关于Kafka-基础的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。
vue3 快速入门系列 - 基础 前面我们已经用 vue2 和 react 做过开发了。 从 vue2 升级到 vue3 成本较大,特别是较大的项目。所以许多公司对旧项目继续使用vue2,新项目则
C# 基础 C#项目创建 这里注意win10虚拟机需要更新下补丁,不然直接下载visual studio 2022会显示版本不支持 HelloWorld C#的类文件都是以.cs结尾,入口方法为sta
关于 iPhone 内存管理的非常基本的问题: 假设我有一个 viewController,其中有几个 subview 也由 viewController 控制。当我删除顶部 viewControll
我仍在努力适应指针。不是概念——我理解内存位置、匹配可变长度的指针增量等——这是语法。这是一个我认为是我感到困惑/无法直观把握的原因之一: int a = 42; 在一个int大小的内存空间中分配并放
1. 简介 Kafka(Apache Kafka) 是一种分布式流数据平台,最初由LinkedIn开发,并于后来捐赠给Apache软件基金会,成为了一个Apache顶级项目。它被设计用于处理大规
1.想要在命令提示符下操作mysql服务器,添加系统变量。(计算机-系统属性——环境变量——path) 2.查询数据表中的数据; select selection_lis
MySQL表的增删改查(基础) 1. CRUD 注释:在SQL中可以使用“–空格+描述”来表示注释说明 CRUD 即增加(Create)、查询(Retrieve)、更新(Update)、删除(Dele
我有一个网页,可以在加载时打开显示模式,在这个模式中,我有一个可以打开第二个模式的链接。当第二个模式关闭时(通过单击关闭按钮或单击模式外部),我想重新打开第一个模式。 对于关闭按钮,我可以通过向具有
使用 Core Data Fetched Properties,我如何执行这个简单的请求: 我希望获取的属性 ( myFetchProp ) 存储 StoreA ,它应该这样做: [myFetchPr
关闭。这个问题是opinion-based .它目前不接受答案。 想改进这个问题?更新问题,以便 editing this post 可以用事实和引用来回答它. 8年前关闭。 Improve this
最近,我得到了一个现有的Drupal项目,并被要求改进前端(HTML,JavaScript,CSS)。我在Django,PHP,Ruby等方面具有大量的前端和后端开发经验,但是我没有任何Drupal经
我试图让我的用户通过使用扫描仪类来决定要做什么,但我有一个问题,代码一旦运行就不会激活,并且它不会让我跳过任何行。我的代码如下所示: Scanner input = new Scanner(S
对模糊的标题表示歉意,因为我想不出这个名字是什么。 基本上创建一个计算学生财务付款的小程序。当我运行它时,它计算对象限额没有问题。然而,无论我尝试什么,对象“助学金”似乎除了 0 之外什么也没有提出。
这是我的代码 - main() { double x; double y = pow(((1/3 + sin(x/2))(pow(x, 3) + 3)), 1/3); prin
如果我的术语在这个问题上有误,我们深表歉意。 采取以下功能: i = 1; v = i * 2; for (j = 0; j < 4; j++ ) { console.log(v);
我的应用程序中有不同的类文件。我有 5 个类,其中 2 个是 Activity ,1 个是运行的服务。其他 2 个只是类。这两个类中变量的生命周期是多少。我知道一个 Activity 可以被操作系统杀
例如,一个方法返回一个 List 类型的对象。 public List bojangles () ... 一些代码调用方法FooBar.bojangles.iterator(); 我是 Java 的新
我遇到了一个奇怪的问题,网格的大小不适合我的屏幕。当我使用 12 列大时,它只占据屏幕的 1/3 的中间,请参见图像。我不确定是什么导致了这个问题。我没有任何会导致这种情况发生的奇怪 CSS。我不会在
我尝试使用头文件和源文件,但遇到了问题。因此,我对我正在尝试做的事情做了一个简化版本,我在 CodeBlocks 中遇到了同样的错误(undefined reference to add(double
我正在为我的网格系统使用基础,但这在任何网格系统中都可能是一个问题。我基本上用一个容器包裹了 3 个单元格,但其中一个单元格应该长到页面边框(留在我的 Sampe-Image 中)但这也可能在右侧)。
我是一名优秀的程序员,十分优秀!