Kafka到SparkStreaming怎么保证数据完整性且不重复消费?
kafka到spark streaming怎么保证数据完整性,怎么保证数据不重复消费?
1、保证数据不丢失(at-least)
spark RDD内部机制可以保证数据at-least语义。
2、Receiver方式
开启WAL(预写日志),将从kafka中接受到的数据写入到日志文件中,所有数据从失败中可恢复。
3、Direct方式
- 依靠checkpoint机制来保证。
- 保证数据不重复(exactly-once):要保证数据不重复,即Exactly once语义。
- 幂等操作:重复执行不会产生问题,不需要做额外的工作即可保证数据不重复。
- 业务代码添加事务操作。就是说针对每个partition的数据,产生一个uniqueId,只有这个partition的所有数据被完全消费,则算成功,否则算失效,要回滚。下次重复执行这个uniqueId时,如果已经被执行成功,则skip掉。
本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!