洋群满满的博客 
  • 首页
  • 归档
  • 分类
  • 标签
  • 关于
  •   
  •   

Kafka的数据高可用的原理详解

Kafka的数据高可用的原理[TOC] ​ Kafka的高可靠性的保障来源于其健壮的副本(replication)策略。通过调节其副本相关参数,可以使得Kafka在性能和可靠性之间运转的游刃有余。Kafka从0.8.x版本开始提供partition级别的复制,replication的数量可以在$KAFKA_HOME/config/server.properties中配置(defau

2021-10-19
Kafka

Kafka的acks简述

Kafka的acks简述[TOC] ​ Kafka的ack机制,指的是producer的消息发送确认机制,这直接影响到Kafka集群的吞吐量和消息可靠性。而吞吐量和可靠性就像硬币的两面,两者不可兼得,只能平衡。 ​ ack有3个可选值,分别是 0,1,-1/all。默认是1。 ack=0​ ack=0,简单来说就是,生产者能够通过网络把数据发送出去,那么

2021-10-19
Kafka

Kafka的消费者高阶和低阶API有何区别

Kafka的消费者高阶和低阶API有何区别[TOC] ​ Kafka提供了两套consumer API:The high-level Consumer API 和 The SimpleConsumer API,其中 high-level consumer API 提供了一个从Kafka消费数据的高层抽象,而 SimpleConsumer API 则需要开发人员更多的关注细节。 The

2021-10-19
Kafka

Kafka在高并发的情况下,如何避免消息丢失和消息重复?

Kafka在高并发的情况下,如何避免消息丢失和消息重复?[TOC] 为什么会发生消息丢失和消息重复?消息生产Kafka消息发送有两种方式:同步(sync)和异步(async),默认是同步方式,可通过producer.type属性进行配置。Kafka通过配置request.required.acks属性来确认消息的生产: 0—表示不进行消息接收是否成功的确认; 1—表示当Leader接收成功时确认

2021-10-19
Kafka

Kafka与传统消息队列的区别?

Kafka与传统消息队列的区别?[TOC] What is 消息队列 消息(Message)是指在应用间传送的数据。消息可以非常简单,比如只包含文本字符串,也可以更复杂,可能包含嵌入对象。 消息队列(Message Queue)是一种应用间的通信方式,消息发送后可以立即返回,由消息系统来确保消息的可靠传递。消息发布者只管把消息发布到 MQ 中而不用管谁来取,消息使用者只管从 MQ 中取消息而不

2021-10-19
Kafka

Kafka分区策略及原理详解[TOC] 简介Apache Kafka 是一个分布式的流处理平台(分布式的基于发布/订阅模式的消息队列【Message Queue】)。 流处理平台有以下3个特性: 可以让你发布和订阅流式的记录。这一方面与消息队列或者企业消息系统类似。 可以储存流式的记录,并且有较好的容错性。 可以在流式记录产生时就进行处理。 消息对列的两种模式点对点模式生产者将消息发送到que

2021-10-19
Kafka

PyHDFS的方法操作详解

PyHDFS[TOC] 安装安装hadoop关于hadoop的安装配置会在另一篇文章中介绍,这里只介绍python的hdfs库的安装. 安装hdfs库所有python的三方模块均采用pip来安装. 1pip install hdfs hdfs库的使用下面将介绍hdfs库的方法列表,并会与hadoop自带的命令行工具进行比较 1234from hdfs.client import ClientPa

2021-10-14
HDFS Python

Spark算子略解

Spark算子略解[TOC] Spark算子从大方向来说,Spark 算子大致可以分为以下两类: Transformation 转换算子:不触发提交job,在内存中完成数据的转换 Value数据类型的Transformation算子,这种变换并不触发提交作业,针对处理的数据项是Value型的数据 Key-Value数据类型的Transfromation算子,这种变换并不触发提交作业,针对处理的数

2021-10-12
Spark 算子

Linux普通用户免密登录

Linux普通用户免密登录

2021-10-11
Linux

MapReduce的优化

MapReduce的优化方法​ MapReduce优化方法主要从六个方面考虑:输入阶段、Map阶段、Reduce阶段、IO阶段、数据倾斜问题、常用的调优参数 1、输入阶段 合并小文件 在执行MR任务之前合并小文件,大量的小文件会产生大量的map任务,增大map任务的装载次数,而任务的装载比较耗时,从而导致MR运行慢 采用combineTextInputFormat作为输入

2021-10-10
数据倾斜 MapReduce 调优
1…34567…10

搜索

Hexo Fluid
载入天数... 载入时分秒...
总访问量 次 总访客数 人