Kafka的数据高可用的原理详解

Kafka的数据高可用的原理[TOC] Kafka的高可靠性的保障来源于其健壮的副本（replication）策略。通过调节其副本相关参数，可以使得Kafka在性能和可靠性之间运转的游刃有余。Kafka从0.8.x版本开始提供partition级别的复制,replication的数量可以在$KAFKA_HOME/config/server.properties中配置（defau

2021-10-19

Kafka

Kafka的acks简述

Kafka的acks简述[TOC] Kafka的ack机制，指的是producer的消息发送确认机制，这直接影响到Kafka集群的吞吐量和消息可靠性。而吞吐量和可靠性就像硬币的两面，两者不可兼得，只能平衡。 ack有3个可选值，分别是 0，1，-1/all。默认是1。 ack=0 ack=0，简单来说就是，生产者能够通过网络把数据发送出去，那么

2021-10-19

Kafka

Kafka的消费者高阶和低阶API有何区别

Kafka的消费者高阶和低阶API有何区别[TOC] Kafka提供了两套consumer API：The high-level Consumer API 和 The SimpleConsumer API，其中 high-level consumer API 提供了一个从Kafka消费数据的高层抽象，而 SimpleConsumer API 则需要开发人员更多的关注细节。 The

2021-10-19

Kafka

Kafka在高并发的情况下，如何避免消息丢失和消息重复？

Kafka在高并发的情况下，如何避免消息丢失和消息重复？[TOC] 为什么会发生消息丢失和消息重复？消息生产Kafka消息发送有两种方式：同步（sync）和异步（async），默认是同步方式，可通过producer.type属性进行配置。Kafka通过配置request.required.acks属性来确认消息的生产： 0—表示不进行消息接收是否成功的确认； 1—表示当Leader接收成功时确认

2021-10-19

Kafka

Kafka与传统消息队列的区别？

Kafka与传统消息队列的区别？[TOC] What is 消息队列消息（Message）是指在应用间传送的数据。消息可以非常简单，比如只包含文本字符串，也可以更复杂，可能包含嵌入对象。消息队列（Message Queue）是一种应用间的通信方式，消息发送后可以立即返回，由消息系统来确保消息的可靠传递。消息发布者只管把消息发布到 MQ 中而不用管谁来取，消息使用者只管从 MQ 中取消息而不

2021-10-19

Kafka

Kafka分区策略及原理详解[TOC] 简介Apache Kafka 是一个分布式的流处理平台（分布式的基于发布/订阅模式的消息队列【Message Queue】）。流处理平台有以下3个特性：可以让你发布和订阅流式的记录。这一方面与消息队列或者企业消息系统类似。可以储存流式的记录，并且有较好的容错性。可以在流式记录产生时就进行处理。消息对列的两种模式点对点模式生产者将消息发送到que

2021-10-19

Kafka

PyHDFS的方法操作详解

PyHDFS[TOC] 安装安装hadoop关于hadoop的安装配置会在另一篇文章中介绍,这里只介绍python的hdfs库的安装. 安装hdfs库所有python的三方模块均采用pip来安装. 1pip install hdfs hdfs库的使用下面将介绍hdfs库的方法列表,并会与hadoop自带的命令行工具进行比较 1234from hdfs.client import ClientPa

2021-10-14

HDFS Python

Spark算子略解

Spark算子略解[TOC] Spark算子从大方向来说，Spark 算子大致可以分为以下两类: Transformation 转换算子：不触发提交job，在内存中完成数据的转换 Value数据类型的Transformation算子，这种变换并不触发提交作业，针对处理的数据项是Value型的数据 Key-Value数据类型的Transfromation算子，这种变换并不触发提交作业，针对处理的数

2021-10-12

Spark 算子

Linux普通用户免密登录

Linux普通用户免密登录

2021-10-11

Linux

MapReduce的优化

MapReduce的优化方法 MapReduce优化方法主要从六个方面考虑：输入阶段、Map阶段、Reduce阶段、IO阶段、数据倾斜问题、常用的调优参数 1、输入阶段合并小文件在执行MR任务之前合并小文件，大量的小文件会产生大量的map任务，增大map任务的装载次数，而任务的装载比较耗时，从而导致MR运行慢采用combineTextInputFormat作为输入

2021-10-10

数据倾斜 MapReduce 调优