Kafka在高并发的情况下,如何避免消息丢失和消息重复?
Kafka在高并发的情况下,如何避免消息丢失和消息重复?
[TOC]
为什么会发生消息丢失和消息重复?
消息生产
Kafka消息发送有两种方式:同步(sync)和异步(async),默认是同步方式,可通过producer.type
属性进行配置。Kafka通过配置request.required.acks
属性来确认消息的生产:
0
—表示不进行消息接收是否成功的确认;1
—表示当Leader接收成功时确认;-1/all
—表示Leader和Follower都接收成功时确认;
综上所述,有6种消息生产的情况,下面分情况来分析消息丢失的场景:
acks=0
,不和Kafka集群进行消息接收确认,则当网络异常、缓冲区满了等情况时,消息可能丢失;acks=1
、同步模式下,只有Leader确认接收成功后但挂掉了,副本没有同步,数据可能丢失;
消息消费
Kafka消息消费有两个consumer
接口,Low-level API
和High-level API
:Low-level API
:消费者自己维护offset
等值,可以实现对Kafka
的完全控制;High-level API
:封装了对parition
和offset
的管理,使用简单;
如果使用高级接口High-level API
,可能存在一个问题就是当消息消费者从集群中把消息取出来、并提交了新的消息offset
值后,还没来得及消费就挂掉了,那么下次再消费时之前没消费成功的消息就“诡异”的消失了;
解决办法:
- 针对消息丢失:同步模式下,确认机制设置为
-1
,即让消息写入Leader
和Follower
之后再确认消息发送成功;异步模式下,为防止缓冲区满,可以在配置文件设置不限制阻塞超时时间,当缓冲区满时让生产者一直处于阻塞状态; - 针对消息重复:将消息的唯一标识保存到外部介质中,每次消费时判断是否处理过即可。
消息丢失解决方案
- 首先对kafka进行限速
- 其次启用重试机制,重试间隔时间设置长一些
- 最后Kafka设置
acks=all
,即需要相应的所有处于ISR
的分区都确认收到该消息后,才算发送成功
消息重复解决方案
- 消息可以使用唯一id标识
- 生产者(
ack=all
代表至少成功发送一次) - 消费者 (
offset
手动提交,业务逻辑成功处理后,提交offset
) - 落表(主键或者唯一索引的方式,避免重复数据)
业务逻辑处理(选择唯一主键存储到Redis或者mongdb
中,先查询是否存在,若存在则不处理;若不存在,先插入Redis
或Mongdb
,再进行业务逻辑处理)
本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!