为了便于理解kafka,先了解一下消息队列以及通讯模式。首先先了解两个名词
- 数据生产者 产生数据的程序或服务
- 数据消费者 处理数据的程序或服务
消息队列
简单的说就是个数据集散地,数据生产方把数据放到消息队列,然后消费方从队列中获得数据进行处理。
我们把消息队列比作超市,超市的供货商就相当于数据生产者,超市顾客就是数据消费者了。
使用消息队列可以让我们解决三大问题
解耦
假设没有超市,我们买菜直接从供货商手里买的话,我们如果要买不同的菜就需要联系好多的供货商。每个供货商又要给很多人供货,这是很麻烦的。超市的出现就解决了这个麻烦,所有的供货商只需要把才运送到超市这一个地方,顾客也只需要去超市这一个地方。就可以买到很多菜。
数据也是一样的,不同用户的数据都进入消息队列,然后服务,只需要从队里中获取数据进行处理就可以了。
异步
没有超市的情况下,我们跟供货商买东西,要两个人都有时间才可以,供货商没时间送货,或者消费者没时间在家接货都无法达成交易。但是有了超市,供货商不用等消费者在家,消费者也不用等供货商有时间送货。大家都是随时去超市购买即可。
数据也一样,数据生产方随时可以产生数据,而不用担心处理数据的服务是否空闲,服务也不用立即对请求进行应答。如果服务异常退出了,等再次启动后可以消息队列中获取数据进行处理。
削峰
没有超市的情况下,如果我们买了10种菜,供货商同时到了,很有可能你拿不了。方路边?万一丢了怎么办呢。有了超市就可以一次买一点多次购买多方便。
数据也一样,最容易出现这种情况的就是秒杀,大量的数据同一时间汇入,这时候很容易让服务崩掉。有了消息队列,咱们就可以轻松化解了,所有的数据先进入消息队列。后台服务从队列中获取数据处理。
通讯模式
点对点模式
前面介绍消息队列举的例子中,都是顾客主动去超市购买商品,这种方式,我们称之为点对点方式。这种模式消费者需要主动获取数据,好处是比较灵活。缺点也很明显,数据消费者或许消息不够及时。有可能你去买菜的时候,菜已经卖没了。
发布订阅模式
为了让消费者买到好的菜,超市推出了送货上面服务,供货商将菜送来的时候,超市会把菜打包好送到您手里。这样就不会买不到菜了。
这种主动送达的方式叫做发布订阅模式,数据发送到消息队列时。消息队列会主动把数据推送给数据消费者。
kafka
消息队列软件有很多种,kafka就是其中的一种。它是Linkedin公司开发,现在已经贡献给了apache基金会。kafka的创始人还在kafka的基础上,开发了好多周边软件,用于数据流转处理。如kafka connect等
kafka启动后默认使用9092端口,想这个端口发送信息,kafka就可以收到了。为了便于操作,kafka自带有Producer和Consumer的命令行工具用于简单测试
使用kafka必须先了解一下kafka的几个关键术语。
Producer
Producer即生产者,消息的产生者,它将消息发送到kafka中。安装包内有命令行工具,在java、python、php等语言也都有响应的sdk。使用Producer对象可以将消息发送到kafka服务。发送服务时会指定Topic。
Message
消息即数据,生产者发送一次数据,会产生一条消息。
Topic
消息主题,可以理解为消息分类。比如订单业务用order,订单服务就可以只接收order topic下的消息进行处理,这是非常方便的。避免了接收无用的消息。
Partition
Topic的分区,可以理解为文件夹,当数据特别多的时候如果把数据再次进行归类存储,可以有效的提高读写效率。比如有一万个文件,放在一个文件夹中查找就比较慢,如果按照哈希分散到a-z的26个文件夹中,那每个文件夹中存储的文件数量就是1/26。当我们发现要查找的文件第一个字母是a,就直接去a文件夹下。这样就提高了查找速度。
Broker
kafka实例,可以简单理解为kafka的消息容器。每个kafka集群内的broker都有一个不重复的编号。每台服务器上可以有一到多个kafka实例,为了便于理解,我们假设一台服务器上有一个kafka实例。这样你也可以理解为一个broker等于一台服务器。
Replication
topic的副本,他存放在kafka实例(broker)上。注意一下几点
- 在kafka中默认副本的最大数量是10个
- 副本的数量不能大于Broker的数量
- follower和leader绝对是在不同的机器,同一机器对同一个分区也只可能存放一个副本(包括自己)。
这样当主分区(Leader Partition)出现故障挂掉的时候,其中一份副本会转正为主分区,让业务可以正常使用
Consumer
消费者,即消息的消费方,是消息的出口。安装包内有命令行工具,在java、python、php等语言也都有响应的sdk。使用Consumer对象可以接收或获取kafka中的数据。
Consumer Group
我们可以将多个消费者组成一个消费者组,一个topic可以被多个消费组消费。但是消费组中多人同时消费一个topic时,每个分区只能有一个人消费。消费组中的消费者数量不要超过这个topic的Partition数量
场景举例
咱们有5台服务器,每台服务器一个kafka实例(broker)。
这时候我们设置副本数量要小于5(1是主分区,剩余4个borker可用作副本),我们设置为4
假设咱们设置分区(Partition)数是10
生产了个order的topic,我们有系统A和系统B都会用到订单数据。
系统A用 group-A消费者的数量不能超过5,如果超过了,会有一个消费这始终借不到数据。group-A中每个消费者都从各自的分区(Partition)中获取数据,他们每个人的数据是不重复的。
系统B如果使用group-A,那么它消费的一些数据,系统A会无法消费。因此如果想要两个系统都获得完整的数据。就需要系统B更换分组,比如使用group-B。这样两个系统互不干扰,都可以拿到消息队列中的全部数据。