洋群满满的博客 
  • 首页
  • 归档
  • 分类
  • 标签
  • 关于
  •   
  •   

redis:数据持久化失败

redis:数据持久化失败[TOC] 一:起因​ 因业务需求,需要将2.7亿的数据存入reids数据库,以保证后期的查询效率。在使用Python脚本语言往Redis数据库插入数据到1.3亿的数据时,差不多用了16G的内存,window的系统内存为32G,相对于支持其他exe的开销,redis的内存都是很在允许范围内的,并且我设置了redis的最大内存为28G,之后多次尝试下,依旧保错

2021-12-06
Redis

Python模块学习-Paramiko

Python模块学习-Paramiko[TOC] 简介​ SSH 是一个协议,OpenSSH是其中一个开源实现,paramiko是Python的一个库,实现了SSHv2协议(底层使用cryptography)。 有了Paramiko以后,我们就可以在Python代码中直接使用SSH协议对远程服务器执行操作,而不是通过ssh命令对远程服务器进行操作。 由于paramiko属于第三方库,

2021-11-18
Python,Linux,库

Flink大全

Flink大全[TOC] Flink基础篇1、什么是Flink?描述一下​ Flink是一个以 流 为核心的高可用、高性能的分布式计算引擎(第四代)。具备 流批一体 ,高吞吐、低延迟,容错能力,大规模复杂计算等特点,在数据流上提供 数据分发 、通信等功能。 2、能否详细解释一下其中的 数据流、流批一体、容错能力等概念? 数据流: 所有产生的 数

2021-10-27
Flink

Spark的Stage划分

Spark的Stage划分及提交的源码分析[TOC] 当触发一个RDD的action后,以count为例,调用关系如下: org.apache.spark.rdd.RDD >>>> count org.apache.spark.SparkContext >>>> runJob org.apache.spark.scheduler.

2021-10-26
Spark Stage 源码

Spark与Hadoop的相同与区别

Spark与Hadoop的相同与区别[TOC] 相同点 两者都是基于MR模型来进行并行计算的 二者的读取数据都阔以来自 HDFS 区别 数据来源 Spark 的数据源阔以来自多个源:Kafka、HDFS、本地文件等等 Hadoop的数据源只能来自 HDFS 运行机制 Spark 的运行基于内存,速度很快,按照官方的说法是Hadoop的10倍 Hadoop 的运行基于磁盘,频繁的I/

2021-10-25
Hadoop Spark

Kafka的读写流程

Kafka的读写流程写流程 先上图 步骤: 连接ZK集群,从ZK中拿到对应topic的partition信息和partition的Leader的相关信息 连接到对应Leader对应的broker 将消息发送到partition的Leader上 其他Follower从Leader上复制数据 依次返回ACK 直到所有ISR中的数据写完成,才完成提交,整个写过程结束 ​ 因为是描述

2021-10-24
Kafka

Kafka中数据量的计算

Kafka中数据量的计算每天的总数据量为 100G,每天产生1亿条日志, 10000万/24/60/60 = 1150条/秒 平均每秒:1150条 低谷每秒:400条 高峰每秒:1150 * (2-20倍) = 2300-23000条 每条日志的大小:0.5KB - 2KB 每秒数据量:2.3MB - 20MB

2021-10-24
Kafka

Kafka的应用场景

Kafka的应用场景​ Kafka是一个高吞吐量的分布式发布订阅消息系统,他阔以处理消费者规模的网站中的所有动作流数据。简单的说:Kafka 就相比是一个邮箱,生产者就是发送邮件的人,消费者就是接受邮件的人,Kafka 就是用来存东西的,只不过它提供了一些处理邮件的机制。 它可以用于两大类别的应用: 构造实时流数据管道,它可以在系统或应用之间可靠地获取数据。(相当于message

2021-10-24
Kafka

Spark中的shuffle操作

Spark中的shuffle操作[TOC] Shuffle 操作​ Spark 中的某些操作会触发一个称为 shuffle 的事件。 shuffle 是 Spark 用于重新分配数据的机制,以便在不同分区之间进行不同的分组。 这通常涉及在执行器和机器之间复制数据,从而使 shuffle 成为一项复杂且成本高昂的操作。 背景​ 要了解 shuffle 期间发生了什么,我们

2021-10-23
Spark shuffle

Kafka的leader选举机制

Kafka的leader选举机制[TOC] 大数据常用的选主机制​ Leader选举算法非常多,大数据]领域常用的有以下两种: Zab(zookeeper使用)​ Zab协议有四个阶段 Leader election Discovery (E#epoch establish) Synchronization (5X#sync with followers) Broa

2021-10-21
Kafka
123…10

搜索

Hexo Fluid
载入天数... 载入时分秒...
总访问量 次 总访客数 人