聊聊kafka

为了便于理解kafka,先了解一下消息队列以及通讯模式。首先先了解两个名词

  • 数据生产者 产生数据的程序或服务
  • 数据消费者 处理数据的程序或服务

消息队列

简单的说就是个数据集散地,数据生产方把数据放到消息队列,然后消费方从队列中获得数据进行处理。
我们把消息队列比作超市,超市的供货商就相当于数据生产者,超市顾客就是数据消费者了。

使用消息队列可以让我们解决三大问题

解耦

假设没有超市,我们买菜直接从供货商手里买的话,我们如果要买不同的菜就需要联系好多的供货商。每个供货商又要给很多人供货,这是很麻烦的。超市的出现就解决了这个麻烦,所有的供货商只需要把才运送到超市这一个地方,顾客也只需要去超市这一个地方。就可以买到很多菜。
数据也是一样的,不同用户的数据都进入消息队列,然后服务,只需要从队里中获取数据进行处理就可以了。

异步

没有超市的情况下,我们跟供货商买东西,要两个人都有时间才可以,供货商没时间送货,或者消费者没时间在家接货都无法达成交易。但是有了超市,供货商不用等消费者在家,消费者也不用等供货商有时间送货。大家都是随时去超市购买即可。
数据也一样,数据生产方随时可以产生数据,而不用担心处理数据的服务是否空闲,服务也不用立即对请求进行应答。如果服务异常退出了,等再次启动后可以消息队列中获取数据进行处理。

削峰

没有超市的情况下,如果我们买了10种菜,供货商同时到了,很有可能你拿不了。方路边?万一丢了怎么办呢。有了超市就可以一次买一点多次购买多方便。
数据也一样,最容易出现这种情况的就是秒杀,大量的数据同一时间汇入,这时候很容易让服务崩掉。有了消息队列,咱们就可以轻松化解了,所有的数据先进入消息队列。后台服务从队列中获取数据处理。

通讯模式

点对点模式

前面介绍消息队列举的例子中,都是顾客主动去超市购买商品,这种方式,我们称之为点对点方式。这种模式消费者需要主动获取数据,好处是比较灵活。缺点也很明显,数据消费者或许消息不够及时。有可能你去买菜的时候,菜已经卖没了。

发布订阅模式

为了让消费者买到好的菜,超市推出了送货上面服务,供货商将菜送来的时候,超市会把菜打包好送到您手里。这样就不会买不到菜了。
这种主动送达的方式叫做发布订阅模式,数据发送到消息队列时。消息队列会主动把数据推送给数据消费者。

kafka

消息队列软件有很多种,kafka就是其中的一种。它是Linkedin公司开发,现在已经贡献给了apache基金会。kafka的创始人还在kafka的基础上,开发了好多周边软件,用于数据流转处理。如kafka connect等

kafka启动后默认使用9092端口,想这个端口发送信息,kafka就可以收到了。为了便于操作,kafka自带有Producer和Consumer的命令行工具用于简单测试

使用kafka必须先了解一下kafka的几个关键术语。

Producer

Producer即生产者,消息的产生者,它将消息发送到kafka中。安装包内有命令行工具,在java、python、php等语言也都有响应的sdk。使用Producer对象可以将消息发送到kafka服务。发送服务时会指定Topic。

Message

消息即数据,生产者发送一次数据,会产生一条消息。

Topic

消息主题,可以理解为消息分类。比如订单业务用order,订单服务就可以只接收order topic下的消息进行处理,这是非常方便的。避免了接收无用的消息。

Partition

Topic的分区,可以理解为文件夹,当数据特别多的时候如果把数据再次进行归类存储,可以有效的提高读写效率。比如有一万个文件,放在一个文件夹中查找就比较慢,如果按照哈希分散到a-z的26个文件夹中,那每个文件夹中存储的文件数量就是1/26。当我们发现要查找的文件第一个字母是a,就直接去a文件夹下。这样就提高了查找速度。

Broker

kafka实例,可以简单理解为kafka的消息容器。每个kafka集群内的broker都有一个不重复的编号。每台服务器上可以有一到多个kafka实例,为了便于理解,我们假设一台服务器上有一个kafka实例。这样你也可以理解为一个broker等于一台服务器。

Replication

topic的副本,他存放在kafka实例(broker)上。注意一下几点

  • 在kafka中默认副本的最大数量是10个
  • 副本的数量不能大于Broker的数量
  • follower和leader绝对是在不同的机器,同一机器对同一个分区也只可能存放一个副本(包括自己)。
    这样当主分区(Leader Partition)出现故障挂掉的时候,其中一份副本会转正为主分区,让业务可以正常使用

Consumer

消费者,即消息的消费方,是消息的出口。安装包内有命令行工具,在java、python、php等语言也都有响应的sdk。使用Consumer对象可以接收或获取kafka中的数据。

Consumer Group

我们可以将多个消费者组成一个消费者组,一个topic可以被多个消费组消费。但是消费组中多人同时消费一个topic时,每个分区只能有一个人消费。消费组中的消费者数量不要超过这个topic的Partition数量

场景举例

咱们有5台服务器,每台服务器一个kafka实例(broker)。
这时候我们设置副本数量要小于5(1是主分区,剩余4个borker可用作副本),我们设置为4
假设咱们设置分区(Partition)数是10

生产了个order的topic,我们有系统A和系统B都会用到订单数据。

系统A用 group-A消费者的数量不能超过5,如果超过了,会有一个消费这始终借不到数据。group-A中每个消费者都从各自的分区(Partition)中获取数据,他们每个人的数据是不重复的。
系统B如果使用group-A,那么它消费的一些数据,系统A会无法消费。因此如果想要两个系统都获得完整的数据。就需要系统B更换分组,比如使用group-B。这样两个系统互不干扰,都可以拿到消息队列中的全部数据。