redis:数据持久化失败 redis:数据持久化失败[TOC] 一:起因 因业务需求,需要将2.7亿的数据存入reids数据库,以保证后期的查询效率。在使用Python脚本语言往Redis数据库插入数据到1.3亿的数据时,差不多用了16G的内存,window的系统内存为32G,相对于支持其他exe的开销,redis的内存都是很在允许范围内的,并且我设置了redis的最大内存为28G,之后多次尝试下,依旧保错 2021-12-06 Redis
Python模块学习-Paramiko Python模块学习-Paramiko[TOC] 简介 SSH 是一个协议,OpenSSH是其中一个开源实现,paramiko是Python的一个库,实现了SSHv2协议(底层使用cryptography)。 有了Paramiko以后,我们就可以在Python代码中直接使用SSH协议对远程服务器执行操作,而不是通过ssh命令对远程服务器进行操作。 由于paramiko属于第三方库, 2021-11-18 Python,Linux,库
Flink大全 Flink大全[TOC] Flink基础篇1、什么是Flink?描述一下 Flink是一个以 流 为核心的高可用、高性能的分布式计算引擎(第四代)。具备 流批一体 ,高吞吐、低延迟,容错能力,大规模复杂计算等特点,在数据流上提供 数据分发 、通信等功能。 2、能否详细解释一下其中的 数据流、流批一体、容错能力等概念? 数据流: 所有产生的 数 2021-10-27 Flink
Spark的Stage划分 Spark的Stage划分及提交的源码分析[TOC] 当触发一个RDD的action后,以count为例,调用关系如下: org.apache.spark.rdd.RDD >>>> count org.apache.spark.SparkContext >>>> runJob org.apache.spark.scheduler. 2021-10-26 Spark Stage 源码
Spark与Hadoop的相同与区别 Spark与Hadoop的相同与区别[TOC] 相同点 两者都是基于MR模型来进行并行计算的 二者的读取数据都阔以来自 HDFS 区别 数据来源 Spark 的数据源阔以来自多个源:Kafka、HDFS、本地文件等等 Hadoop的数据源只能来自 HDFS 运行机制 Spark 的运行基于内存,速度很快,按照官方的说法是Hadoop的10倍 Hadoop 的运行基于磁盘,频繁的I/ 2021-10-25 Hadoop Spark
Kafka的读写流程 Kafka的读写流程写流程 先上图 步骤: 连接ZK集群,从ZK中拿到对应topic的partition信息和partition的Leader的相关信息 连接到对应Leader对应的broker 将消息发送到partition的Leader上 其他Follower从Leader上复制数据 依次返回ACK 直到所有ISR中的数据写完成,才完成提交,整个写过程结束 因为是描述 2021-10-24 Kafka
Kafka中数据量的计算 Kafka中数据量的计算每天的总数据量为 100G,每天产生1亿条日志, 10000万/24/60/60 = 1150条/秒 平均每秒:1150条 低谷每秒:400条 高峰每秒:1150 * (2-20倍) = 2300-23000条 每条日志的大小:0.5KB - 2KB 每秒数据量:2.3MB - 20MB 2021-10-24 Kafka
Kafka的应用场景 Kafka的应用场景 Kafka是一个高吞吐量的分布式发布订阅消息系统,他阔以处理消费者规模的网站中的所有动作流数据。简单的说:Kafka 就相比是一个邮箱,生产者就是发送邮件的人,消费者就是接受邮件的人,Kafka 就是用来存东西的,只不过它提供了一些处理邮件的机制。 它可以用于两大类别的应用: 构造实时流数据管道,它可以在系统或应用之间可靠地获取数据。(相当于message 2021-10-24 Kafka
Spark中的shuffle操作 Spark中的shuffle操作[TOC] Shuffle 操作 Spark 中的某些操作会触发一个称为 shuffle 的事件。 shuffle 是 Spark 用于重新分配数据的机制,以便在不同分区之间进行不同的分组。 这通常涉及在执行器和机器之间复制数据,从而使 shuffle 成为一项复杂且成本高昂的操作。 背景 要了解 shuffle 期间发生了什么,我们 2021-10-23 Spark shuffle
Kafka的leader选举机制 Kafka的leader选举机制[TOC] 大数据常用的选主机制 Leader选举算法非常多,大数据]领域常用的有以下两种: Zab(zookeeper使用) Zab协议有四个阶段 Leader election Discovery (E#epoch establish) Synchronization (5X#sync with followers) Broa 2021-10-21 Kafka