Kafka命令大全

Kafka命令大全整理kafka相关的常用命令。管理123456789101112131415## 创建topic（4个分区，2个副本）bin/kafka-topics.sh-zookeeperalhost:2181 --replication-factorreplication-factor 2 --partitions 4 --topic test### kafka版本 >= 2.2b

2021-10-20

Kafka

Kafka如何保证数据一致性和可靠性？

kafka保证数据一致性和可靠性数据一致性保证一致性定义：若某条消息对client可见，那么即使Leader挂了，在新Leader上数据依然可以被读到 HW-HighWaterMark: client可以从Leader读到的最大msg offset，即对外可见的最大offset， HW=max(replica.offset) 对于Leader新

2021-10-20

Kafka

Kafka到SparkStreaming怎么保证数据完整性且不重复消费？

kafka到spark streaming怎么保证数据完整性，怎么保证数据不重复消费？1、保证数据不丢失（at-least） spark RDD内部机制可以保证数据at-least语义。 2、Receiver方式开启WAL（预写日志），将从kafka中接受到的数据写入到日志文件中，所有数据从失败中可恢复。 3、Direct方式依靠checkpoint机制来保证。

2021-10-20

Kafka

Kafka保证数据消费且只消费一次

Kafka保证数据消费且只消费一次幂等性（Producer）：保证发送单个分区的消息只会发送一次，不会出现重复消息事务（Transaction）：保证原子性的写入多个分区，即写入到多个分区的消息要么全部成功，要么全部回滚处理EOS：流处理本质上可看成是“读取-处理-写入”的管道。此EOS保证整个过程的操作是原子性。注意，这只适用于Kafka Streams

2021-10-20

Kafka

Kafka为什么只让leader进行读写？

Kafka为什么只让leader进行读写？[TOC] 因为数据一致性，kafka 是保存副本 leader读写，follower 只备份而 zookeeper是 leader 读写，follower负责读 zookeeper 与kafka保持数据一致性的不同点zookeeper zookeeper使用了ZAB(Zookeeper Atomic Broadcast)协议，保证了l

2021-10-20

Kafka Zookeeper

Zookeeper的选举机制详解

2021-10-20

Spark的通信机制详解

2021-10-20

Spark

Spark中数据倾斜的解决方案

Spark中数据倾斜的解决方案[TOC] 一、什么是数据倾斜对 Spark/Hadoop 这样的分布式大数据系统来讲，数据量大并不可怕，可怕的是数据倾斜。对于分布式系统而言，理想情况下，随着系统规模（节点数量）的增加，应用整体耗时线性下降。如果一台机器处理一批大量数据需要120分钟，当机器数量增加到3台时，理想的耗时为120 / 3 = 40分钟。但是，想做到

2021-10-20

数据倾斜 Spark

Spark广播变量的作用？

Spark广播变量的作用？[TOC] 广播变量的好处广播变量的好处，不需要每个task带上一份变量副本，而是变成每个节点的executor才一份副本。这样的话，就可以让变量产生的副本大大减少。广播变量的用法广播变量用法很简单，其实就是SparkContext的broadcast()方法，传入你要广播的变量，即可。 1context.broadcast(a)

2021-10-20

Spark

Spark的shuffle与MR的shuffle的过程简述

Spark的shuffle与MR的shuffle的过程简述

2021-10-20

Spark shuffle MR