Kafka的数据高可用的原理详解 Kafka的数据高可用的原理[TOC] Kafka的高可靠性的保障来源于其健壮的副本(replication)策略。通过调节其副本相关参数,可以使得Kafka在性能和可靠性之间运转的游刃有余。Kafka从0.8.x版本开始提供partition级别的复制,replication的数量可以在$KAFKA_HOME/config/server.properties中配置(defau 2021-10-19 Kafka
Kafka的acks简述 Kafka的acks简述[TOC] Kafka的ack机制,指的是producer的消息发送确认机制,这直接影响到Kafka集群的吞吐量和消息可靠性。而吞吐量和可靠性就像硬币的两面,两者不可兼得,只能平衡。 ack有3个可选值,分别是 0,1,-1/all。默认是1。 ack=0 ack=0,简单来说就是,生产者能够通过网络把数据发送出去,那么 2021-10-19 Kafka
Kafka的消费者高阶和低阶API有何区别 Kafka的消费者高阶和低阶API有何区别[TOC] Kafka提供了两套consumer API:The high-level Consumer API 和 The SimpleConsumer API,其中 high-level consumer API 提供了一个从Kafka消费数据的高层抽象,而 SimpleConsumer API 则需要开发人员更多的关注细节。 The 2021-10-19 Kafka
Kafka在高并发的情况下,如何避免消息丢失和消息重复? Kafka在高并发的情况下,如何避免消息丢失和消息重复?[TOC] 为什么会发生消息丢失和消息重复?消息生产Kafka消息发送有两种方式:同步(sync)和异步(async),默认是同步方式,可通过producer.type属性进行配置。Kafka通过配置request.required.acks属性来确认消息的生产: 0—表示不进行消息接收是否成功的确认; 1—表示当Leader接收成功时确认 2021-10-19 Kafka
Kafka与传统消息队列的区别? Kafka与传统消息队列的区别?[TOC] What is 消息队列 消息(Message)是指在应用间传送的数据。消息可以非常简单,比如只包含文本字符串,也可以更复杂,可能包含嵌入对象。 消息队列(Message Queue)是一种应用间的通信方式,消息发送后可以立即返回,由消息系统来确保消息的可靠传递。消息发布者只管把消息发布到 MQ 中而不用管谁来取,消息使用者只管从 MQ 中取消息而不 2021-10-19 Kafka
Kafka分区策略及原理详解[TOC] 简介Apache Kafka 是一个分布式的流处理平台(分布式的基于发布/订阅模式的消息队列【Message Queue】)。 流处理平台有以下3个特性: 可以让你发布和订阅流式的记录。这一方面与消息队列或者企业消息系统类似。 可以储存流式的记录,并且有较好的容错性。 可以在流式记录产生时就进行处理。 消息对列的两种模式点对点模式生产者将消息发送到que 2021-10-19 Kafka
PyHDFS的方法操作详解 PyHDFS[TOC] 安装安装hadoop关于hadoop的安装配置会在另一篇文章中介绍,这里只介绍python的hdfs库的安装. 安装hdfs库所有python的三方模块均采用pip来安装. 1pip install hdfs hdfs库的使用下面将介绍hdfs库的方法列表,并会与hadoop自带的命令行工具进行比较 1234from hdfs.client import ClientPa 2021-10-14 HDFS Python
Spark算子略解 Spark算子略解[TOC] Spark算子从大方向来说,Spark 算子大致可以分为以下两类: Transformation 转换算子:不触发提交job,在内存中完成数据的转换 Value数据类型的Transformation算子,这种变换并不触发提交作业,针对处理的数据项是Value型的数据 Key-Value数据类型的Transfromation算子,这种变换并不触发提交作业,针对处理的数 2021-10-12 Spark 算子
MapReduce的优化 MapReduce的优化方法 MapReduce优化方法主要从六个方面考虑:输入阶段、Map阶段、Reduce阶段、IO阶段、数据倾斜问题、常用的调优参数 1、输入阶段 合并小文件 在执行MR任务之前合并小文件,大量的小文件会产生大量的map任务,增大map任务的装载次数,而任务的装载比较耗时,从而导致MR运行慢 采用combineTextInputFormat作为输入 2021-10-10 数据倾斜 MapReduce 调优