洋群满满的博客 
  • 首页
  • 归档
  • 分类
  • 标签
  • 关于
  •   
  •   

Kafka命令大全

Kafka命令大全整理kafka相关的常用命令。 管理123456789101112131415## 创建topic(4个分区,2个副本)bin/kafka-topics.sh-zookeeperalhost:2181 --replication-factorreplication-factor 2 --partitions 4 --topic test### kafka版本 >= 2.2b

2021-10-20
Kafka

Kafka如何保证数据一致性和可靠性?

kafka保证数据一致性和可靠性数据一致性保证​ 一致性定义:若某条消息对client可见,那么即使Leader挂了,在新Leader上数据依然可以被读到 ​ HW-HighWaterMark: client可以从Leader读到的最大msg offset,即对外可见的最大offset, HW=max(replica.offset) ​ 对于Leader新

2021-10-20
Kafka

Kafka到SparkStreaming怎么保证数据完整性且不重复消费?

kafka到spark streaming怎么保证数据完整性,怎么保证数据不重复消费?1、保证数据不丢失(at-least)​ spark RDD内部机制可以保证数据at-least语义。 2、Receiver方式​ 开启WAL(预写日志),将从kafka中接受到的数据写入到日志文件中,所有数据从失败中可恢复。 3、Direct方式 依靠checkpoint机制来保证。

2021-10-20
Kafka

Kafka保证数据消费且只消费一次

Kafka保证数据消费且只消费一次 幂等性(Producer):保证发送单个分区的消息只会发送一次,不会出现重复消息 事务(Transaction):保证原子性的写入多个分区,即写入到多个分区的消息要么全部成功,要么全部回滚处理EOS:流处理本质上可看成是“读取-处理-写入”的管道。此EOS保证整个过程的操作是原子性。注意,这只适用于Kafka Streams

2021-10-20
Kafka

Kafka为什么只让leader进行读写?

Kafka为什么只让leader进行读写?[TOC] 因为数据一致性 ,kafka 是保存副本 leader读写,follower 只备份 而 zookeeper是 leader 读写,follower负责读 zookeeper 与kafka保持数据一致性的不同点zookeeper​ zookeeper使用了ZAB(Zookeeper Atomic Broadcast)协议,保证了l

2021-10-20
Kafka Zookeeper

Zookeeper的选举机制详解

2021-10-20

Spark的通信机制详解

2021-10-20
Spark

Spark中数据倾斜的解决方案

Spark中数据倾斜的解决方案[TOC] 一、什么是数据倾斜​ 对 Spark/Hadoop 这样的分布式大数据系统来讲,数据量大并不可怕,可怕的是数据倾斜。 ​ 对于分布式系统而言,理想情况下,随着系统规模(节点数量)的增加,应用整体耗时线性下降。如果一台机器处理一批大量数据需要120分钟,当机器数量增加到3台时,理想的耗时为120 / 3 = 40分钟。但是,想做到

2021-10-20
数据倾斜 Spark

Spark广播变量的作用?

Spark广播变量的作用?[TOC] 广播变量的好处​ 广播变量的好处,不需要每个task带上一份变量副本,而是变成每个节点的executor才一份副本。这样的话, 就可以让变量产生的副本大大减少。 广播变量的用法​ 广播变量用法很简单,其实就是SparkContext的broadcast()方法,传入你要广播的变量,即可。 1context.broadcast(a)

2021-10-20
Spark

Spark的shuffle与MR的shuffle的过程简述

Spark的shuffle与MR的shuffle的过程简述

2021-10-20
Spark shuffle MR
1234…10

搜索

Hexo Fluid
载入天数... 载入时分秒...
总访问量 次 总访客数 人