Kafka到SparkStreaming怎么保证数据完整性且不重复消费？ - 洋群满满のBlog

kafka到spark streaming怎么保证数据完整性，怎么保证数据不重复消费？

1、保证数据不丢失（at-least）

spark RDD内部机制可以保证数据at-least语义。

2、Receiver方式

开启WAL（预写日志），将从kafka中接受到的数据写入到日志文件中，所有数据从失败中可恢复。

3、Direct方式

依靠checkpoint机制来保证。

保证数据不重复（exactly-once）:要保证数据不重复，即Exactly once语义。
- 幂等操作：重复执行不会产生问题，不需要做额外的工作即可保证数据不重复。
- 业务代码添加事务操作。就是说针对每个partition的数据，产生一个uniqueId，只有这个partition的所有数据被完全消费，则算成功，否则算失效，要回滚。下次重复执行这个uniqueId时，如果已经被执行成功，则skip掉。

Kafka

本博客所有文章除特别声明外，均采用 CC BY-SA 4.0 协议，转载请注明出处！

Kafka如何保证数据一致性和可靠性？上一篇

Kafka保证数据消费且只消费一次下一篇

目录