Kafka到SparkStreaming怎么保证数据完整性且不重复消费?

kafka到spark streaming怎么保证数据完整性,怎么保证数据不重复消费?

1、保证数据不丢失(at-least)

​ spark RDD内部机制可以保证数据at-least语义。

2、Receiver方式

​ 开启WAL(预写日志),将从kafka中接受到的数据写入到日志文件中,所有数据从失败中可恢复。

3、Direct方式

  • 依靠checkpoint机制来保证。
  • 保证数据不重复(exactly-once):要保证数据不重复,即Exactly once语义。
    • 幂等操作:重复执行不会产生问题,不需要做额外的工作即可保证数据不重复。
    • 业务代码添加事务操作。就是说针对每个partition的数据,产生一个uniqueId,只有这个partition的所有数据被完全消费,则算成功,否则算失效,要回滚。下次重复执行这个uniqueId时,如果已经被执行成功,则skip掉。