- ubuntu12.04环境下使用kvm ioctl接口实现最简单的虚拟机
- Ubuntu 通过无线网络安装Ubuntu Server启动系统后连接无线网络的方法
- 在Ubuntu上搭建网桥的方法
- ubuntu 虚拟机上网方式及相关配置详解
CFSDN坚持开源创造价值,我们致力于搭建一个资源共享平台,让每一个IT人在这里找到属于你的精彩世界.
这篇CFSDN的博客文章Kafka 的生产者与消费者机制+分区策略,你这还不懂?由作者收集整理,如果你对这篇文章有兴趣,记得点赞哟.
Kafka是最初由Linkedin公司开发,Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目,也是一个开源【分布式流处理平台】,由Scala和Java编写,(也当做MQ系统,但不是纯粹的消息系统) 。
目前 Kafka 已经定位为一个分布式流式处理平台,它以高吞吐、可持久化、可水平扩展、支持流数据处理等多种特性而被广泛使用。目前越来越多的开源分布式处理系统如 Cloudera、Storm、Spark、Flink 等都支持与 Kafka 集成 。
在Kafka中,生产者(producer)将消息发送给Broker,Broker将生产者发送的消息存储到磁盘当中,而消费者(Consumer)负责从Broker订阅并且消费消息,消费者(Consumer)使用pull这种模式从服务端拉取消息。而zookeeper是负责整个集群的元数据管理与控制器的选举。具体如下图所示.
发布订阅的对象是主题(Topic),生产者将消息发送到指定的主题,消费者再对负责订阅的主题来进行消费。在Kafka里的分区机制是怎么样的呢?它是将主题划分成了多个分区(partition),每一个分区又有多个副本,在同一个主题下的不同分区里的消息也是不一样的。在生产者生产出来的每一条消息都只会发送到一个分区里,Kafka里的分区编号都是从0开始的,如果生产者向两个分区的主题发送一条消息,那么这条不是在分区0里,就是在分区1里.
那么如何指定消息到指定的分区里呢?
这时候就可以看看生产者的发送逻辑了,在此之前我们需要知道一个叫ProducerRecord的玩意,这个是什么?
ProducerRecord就是发送给Broker的Key/value键值对,封装基础数据信息,简称为PR.
内部结构 。
生产者发送逻辑 。
1、如果指定了Partition ID的话,那么PR就会被发送到指定的Partition里.
2、如果没有指定Partition ID,但是指定了Key,那么PR就会按照hash(key)发送到相对应的Partition里 。
3、如果没有指定Partition ID,也没有指定Key,PR就会使用默认的round-robin轮训发送到每一个Partition里(消费者消费partition分区默认是range模式) 。
4、如果同时指定了Partition ID与Key的话,PR只会发送到指定的Partition(这时候的Key不起作用,代码逻辑决定) 。
注意:Partition有多个副本,但是的话只有一个replicationLeader来负责这个Partition和生产者消费者交互 。
生产者到Broker的发送流程 。
kafka的客户端发送数据到服务器里(并不是来一条发一条),会经过内存的缓冲区,在通过KafkaProducer发送出去的消息都是先进入到客户端的本地缓存里,然后再把消息收集到Batch里,再一次性的发送到Broker上去的,这样的性能才可能提高.
生产者常见的配置 。
消费者根据什么模式从broker获取数据的?为什么是pull模式,而不是broker主动push?
答案可以看文章一开始的图,消费者是采用Pull拉取方式从broker的partition获取数据,那为什么是pull模式而不是push呢?pull模式可以根据消费者的消费能力来进行自己调整,不同的消费者性能不一样。如果broker没有数据的话,消费者可以配置timeout的世界,进行阻塞等待一段时间后再返回。但如果是broker主动Push,push的优点是可以快速的处理消息,但是容易对消费者处理不过来,造成消息的堆积和延迟.
消费者从哪个分区进行消费?
我们知道一个topic有多个partition,一个消费者组里面就有多个消费者,那是怎么分配的呢?一个主题topic可以有多个消费者,因为里面有多个partition分区(leader分区),一个partition leader可以由一个消费组里的一个消费者来消费.
那么消费者从哪个分区来进行消费呢?
策略1、round-robin (RoundRobinAssignor非默认策略)轮训,按照消费者组来进行轮训分配,同个消费者组监听不同的主题也是一样,是把所有的partition和所有的consumer都列出来,所以的话消费者组里面的订阅主题是一样的才可以,主题不一样的话会出现分配不均匀的问题。比如下面这个例子:
这样会有什么弊端,如果是同一消费者组里,所订阅的消息是不相同的,在执行分区的时候分配不是轮询分配,这样可能会导致分区分配的不均匀。例如现在有三个消费者C0、C1、C2,它们共订阅了3个主题:t0、t1、t2。这时候t0有1个分区(p0),t1有2个分区(p0,p1),t2有3个分区(p0,p1,p2)。消费者C0订阅了主题t0,消费者C1订阅主题t0和t1,消费者C2订阅的是t0,t1,t2。因为是轮询的机制,当C0订阅到T0后,C1就订阅不了到T0了,但是可以订阅到T1,C2也一样的订阅不了T0,但是T1和T2都能订阅到,这时候T2也就只有C2订阅,其他的C0与C1是不可见的,这时候T2的的消息也就给C2这个消费者来消费了。这个情况就是分配不均的问题.
策略2、range(RangeAssignor默认策略)范围,按照主题来进行分配,如果不平均分配的话,则第一个消费者会分配比较多的分区,一个消费者监听不同的主题也不影响,这一种策略有什么弊端呢,只是针对一个topic来说的话,c-1多消费一个分区的话影响并不大,如果有多个topic,那么针对每一个topic的话,消费者C-1都将多消费1个分区,topic越多的话那么久消费的分区也越多,性能会有所下降.
什么是Rebalance操作 。
Kafka怎么均匀的分配某一个topic下所有的partition到各个消费者的呢,从而使得消息的消费速度达到了最快,这就是平衡。而rebalance(重平衡)其实就是重新进行partition的分配,从而使得partition的分配重新达到了平衡的状态。如下图,有两个Consumer,A和B,当第三个成员C加入时,Kafka就会触发Rebalance,重新分配策略为A、B、C重新分区,Rebalance之后的分配依旧还是公平的,每个Consumer实例都获取了两个分区的消费权.
当消费者在消费过程突然宕机了,重新恢复后是从哪里消费,会有什么问题?
消费者会记录offset,故障恢复后会从这里继续消费,那么这个offset记录在哪里呢?记录在zookeeper和本地,新版的默认将offset保证在kafka的内置topic中,名称为_consumer_offsets。在这个topic默认会有50个Partition,每一个Partition都有3个副本,分区数量就是由参数offset.topic.num.partition配置的。通过groupid的哈希值和该参数的取模方式来确定某个消费者组已消费的offset保存到_consumer_offsets主题的哪个分区中。这个由消费者组名+主题+分区,来确定唯一的offset的key,从而获取对应的值.
原文链接:https://mp.weixin.qq.com/s/aF_hW6zMXZovDnbpJ5mmFA 。
最后此篇关于Kafka 的生产者与消费者机制+分区策略,你这还不懂?的文章就讲到这里了,如果你想了解更多关于Kafka 的生产者与消费者机制+分区策略,你这还不懂?的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。
广播的原则 如果两个数组的后缘维度(从末尾开始算起的维度)的轴长度相符或其中一方的长度为1,则认为它们是广播兼容的。广播会在缺失维度和(或)轴长度为1的维度上进行。 在上面的对arr每一列减去列
之前在讲 MySQL 事务隔离性提到过,对于写操作给读操作的影响这种情形下发生的脏读、不可重复读、虚读问题。是通过MVCC 机制来进行解决的,那么MVCC到底是如何实现的,其内部原理是怎样的呢?我们要
我创建了一个 JavaScript 对象来保存用户在 ColorBox 中检查复选框时设置的值。 . 我对 jQuery 和“以正确的方式”编程 JavaScript 比较陌生,希望确保以下用于捕获用
我为了回答aquestion posted here on SO而玩示例,发现很难理解python的import *破坏作用域的机制。 首先是一点上下文:这个问题不涉及实际问题;我很清楚from fo
我想让我的类具有标识此类的参数 ID。例如我想要这样的东西: class Car { public static virtual string ID{get{return "car";}} }
更新:我使用的是 Java 1.6.34,没有机会升级到 Java 7。 我有一个场景,我每分钟只能调用一个方法 80 次。它实际上是由第 3 方编写的服务 API,如果您多次调用它,它会“关闭”(忽
希望这对于那些使用 Javascript 的人来说是一个简单的答案...... 我有一个日志文件,该文件正在被一个脚本监视,该脚本将注销中的新行提供给任何连接的浏览器。一些人评论说,他们希望看到的更多
我们正在开发针对 5.2 开发的 PHP 应用程序,但我们最近迁移到了 PHP 5.3。我们没有时间去解决所有迁移到 PHP 5.3 的问题。具体来说,我们有很多消息: Declaration of
简介 在实现定时调度功能的时候,我们往往会借助于第三方类库来完成,比如: quartz 、 spring schedule 等等。jdk从1.3版本开始,就提供了基于 timer 的定时调度功能。
Java中,一切都是对象,在分布式环境中经常需要将Object从这一端网络或设备传递到另一端。这就需要有一种可以在两端传输数据的协议。Java序列化机制就是为了解决这个问题而
我将编写自己的自定义控件,它与 UIButton 有很大不同。由于差异太大,我决定从头开始编写。所以我所有的子类都是 UIControl。 当我的控件在内部被触摸时,我想以目标操作的方式触发一条消息。
在我的代码中,在创建 TIdIMAP4 连接之前,我设置了一大堆 SASL 机制,希望按照规定的“最好到最差”顺序,如下所示: IMAP.SASLMechanisms.Add.SASL := mIdS
在 Kubernetes 中,假设我们有 3 个 pod,它们物理上托管在节点 X、Y 和 Z 上。当我使用“kubectl expose”将它们公开为服务时,它们都是集群中的节点(除了 X、Y 和
关闭。这个问题需要多问focused 。目前不接受答案。 想要改进此问题吗?更新问题,使其仅关注一个问题 editing this post . 已关闭 9 年前。 Improve this ques
我知道进程间通信 (ipc) 有几种方法,例如: 文件 信号 socket 消息队列 管道 命名管道 信号量 共享内存 消息传递 内存映射文件 但是我无法找到将这些机制相互比较并指出它们在不同环境中的
当我尝试连接到 teradata 时,出现了TD2 机制不支持单点登录 错误。 在 C# 中,我遇到了类似的问题,我通过添加 connectionStringBuilder.Authetication
我有一个带有 JSON API 的简单 Javascript 应用程序。目前它在客户端运行,但我想将它从客户端移动到服务器。我习惯于学习新平台,但在这种情况下,我的时间非常有限 - 所以我需要找到绝对
我想了解事件绑定(bind)/解除绑定(bind)在浏览器中是如何工作的。具体来说,如果我删除一个已经绑定(bind)了事件的元素,例如使用 jQuery:$("#anElement").remove
我不是在寻找具体答案,只是一个想法或提示。我有以下问题: Android 应用程序是 Web 服务的客户端。它有一个线程,通过 http 协议(protocol)发送事件(带有请求 ID 的 XML
我正在研究 FreeBSD TCP/IP 栈。似乎有 2 种 syn flood 机制,syncookies 和 syncache。我的问题是关于 syncookies,它是从头开始还是在 SYN 队
我是一名优秀的程序员,十分优秀!