redis:数据持久化失败

redis:数据持久化失败[TOC] 一：起因因业务需求，需要将2.7亿的数据存入reids数据库，以保证后期的查询效率。在使用Python脚本语言往Redis数据库插入数据到1.3亿的数据时，差不多用了16G的内存，window的系统内存为32G，相对于支持其他exe的开销，redis的内存都是很在允许范围内的，并且我设置了redis的最大内存为28G，之后多次尝试下，依旧保错

2021-12-06

Redis

Python模块学习-Paramiko

Python模块学习-Paramiko[TOC] 简介 SSH 是一个协议，OpenSSH是其中一个开源实现，paramiko是Python的一个库，实现了SSHv2协议(底层使用cryptography)。有了Paramiko以后，我们就可以在Python代码中直接使用SSH协议对远程服务器执行操作，而不是通过ssh命令对远程服务器进行操作。由于paramiko属于第三方库，

2021-11-18

Python,Linux,库

Flink大全

Flink大全[TOC] Flink基础篇1、什么是Flink？描述一下 Flink是一个以流为核心的高可用、高性能的分布式计算引擎（第四代）。具备流批一体，高吞吐、低延迟，容错能力，大规模复杂计算等特点，在数据流上提供数据分发、通信等功能。 2、能否详细解释一下其中的数据流、流批一体、容错能力等概念？数据流：所有产生的数

2021-10-27

Flink

Spark的Stage划分

Spark的Stage划分及提交的源码分析[TOC] 当触发一个RDD的action后，以count为例，调用关系如下： org.apache.spark.rdd.RDD >>>> count org.apache.spark.SparkContext >>>> runJob org.apache.spark.scheduler.

2021-10-26

Spark Stage 源码

Spark与Hadoop的相同与区别

Spark与Hadoop的相同与区别[TOC] 相同点两者都是基于MR模型来进行并行计算的二者的读取数据都阔以来自 HDFS 区别数据来源 Spark 的数据源阔以来自多个源：Kafka、HDFS、本地文件等等 Hadoop的数据源只能来自 HDFS 运行机制 Spark 的运行基于内存，速度很快，按照官方的说法是Hadoop的10倍 Hadoop 的运行基于磁盘，频繁的I/

2021-10-25

Hadoop Spark

Kafka的读写流程

Kafka的读写流程写流程先上图步骤：连接ZK集群，从ZK中拿到对应topic的partition信息和partition的Leader的相关信息连接到对应Leader对应的broker 将消息发送到partition的Leader上其他Follower从Leader上复制数据依次返回ACK 直到所有ISR中的数据写完成，才完成提交，整个写过程结束因为是描述

2021-10-24

Kafka

Kafka中数据量的计算

Kafka中数据量的计算每天的总数据量为 100G，每天产生1亿条日志， 10000万/24/60/60 = 1150条/秒平均每秒：1150条低谷每秒：400条高峰每秒：1150 * （2-20倍） = 2300-23000条每条日志的大小：0.5KB - 2KB 每秒数据量：2.3MB - 20MB

2021-10-24

Kafka

Kafka的应用场景

Kafka的应用场景 Kafka是一个高吞吐量的分布式发布订阅消息系统，他阔以处理消费者规模的网站中的所有动作流数据。简单的说：Kafka 就相比是一个邮箱，生产者就是发送邮件的人，消费者就是接受邮件的人，Kafka 就是用来存东西的，只不过它提供了一些处理邮件的机制。它可以用于两大类别的应用：构造实时流数据管道，它可以在系统或应用之间可靠地获取数据。(相当于message

2021-10-24

Kafka

Spark中的shuffle操作

Spark中的shuffle操作[TOC] Shuffle 操作 Spark 中的某些操作会触发一个称为 shuffle 的事件。 shuffle 是 Spark 用于重新分配数据的机制，以便在不同分区之间进行不同的分组。这通常涉及在执行器和机器之间复制数据，从而使 shuffle 成为一项复杂且成本高昂的操作。背景要了解 shuffle 期间发生了什么，我们

2021-10-23

Spark shuffle

Kafka的leader选举机制

Kafka的leader选举机制[TOC] 大数据常用的选主机制 Leader选举算法非常多，大数据]领域常用的有以下两种: Zab(zookeeper使用) Zab协议有四个阶段 Leader election Discovery (E#epoch establish) Synchronization (5X#sync with followers) Broa

2021-10-21

Kafka