洋群满满的博客 
  • 首页
  • 归档
  • 分类
  • 标签
  • 关于
  •   
  •   

Hive的内部表、外部表、分区表与分桶表

Hive的内部表、外部表、分区表与分桶表[TOC] 内部表&外部表定义:未被external修饰的是内部表(managed table),被external修饰的为外部表(external table); 二者区别 区别 内部表managed table 外部表external table 数据管理 Hive自身管理 HDFS管理 存储位置 hive.metastore.

2021-10-07
Hive

Hive数据倾斜的原因和处理

Hive数据倾斜的原因和处理[TOC] 数据倾斜概念​ 数据倾斜就是数据的分布不平衡,某些地方特别多,某些地方又特别少,导致的在处理数据的时候,有些很快就处理完了,而有些又迟迟未能处理完,导致整体任务最终迟迟无法完成,这种现象就是数据倾斜。 ​ 针对mapreduce的过程来说就是,有多个reduce,其中有一个或者若干个reduce要处理的数据量特别大,而其他的r

2021-10-06
Hive 数据倾斜

Hive如何调优

Hive 调优[TOC] 调优根源​ Hive性能优化时,把HiveQL当做MapReduce程序来读,即从MapReduce的运行角度来考虑优化性能,从更底层思考如何优化运算性能,而不仅仅局限于逻辑代码的替换层面,所以Hive的优化即MapReduce的优化。 ​ RAC(Real Application Cluster)真正应用集群就像一辆机动灵活的小货车,响应快;

2021-10-06
Hive 调优

Hive的自定义函数的实现

Hive自定义函数[TOC] 为什么需要自定义函数 hive的内置函数满足不了所有的业务需求。 hive提供很多的模块可以自定义功能,比如:自定义函数、serde、输入输出格式等。 常见的自定义函数 UDF:用户自定义函数,user defined function。一对一的输入输出。(最常用的)。 UDTF:用户自定义表生成函数。user defined table-generate func

2021-10-06
Hive

Hive中行列转换的实现

Hive行列转换[TOC] 1、行转列 (根据主键,进行多行合并一列)使用函数:concat_ws(‘,’,collect_set(column)) collect_list 不去重 collect_set 去重 column 的数据类型要求是 string 1.1、构建测试数据创建数据 vi row_to_col.txt 12345孙悟空,白羊座,A大海,射手座,A宋宋,白羊座,B猪八戒,白

2021-10-06
Hive

Hive中PartitionBy、OrderBy、DistrbuteBy等的关系与作用详解

2021-10-06
Hive

Hive的特点

2021-10-06
Hive

HQL的执行流程

HQL的执行流程[TOC] Hive的体系结构Hive的定义:就是一个简单的数据管理系统,因为他本身不存储数据,而且它的数据处理引擎是Hadoop的MapReduce 所以它的架构大致便有三个: Client:客户端负责提交查询语句 RDBMS:mysql负责储存表结构(Schema) Hadoop:HDFS负责存储表数据 Hive的执行原理执行流程 Start:Client客户端提交HQL

2021-10-06
Hive

Hadoop的调度器详解

简述Hadoop的调度器[TOC] ​ hadoop调度器的作用是将系统中空闲的资源按一定策略分配给作业。调度器是一个可插拔的模块,用户可以根据自己的实际应用要求设计调度器。Hadoop中常见的调度器有三种,分别为: 1、基于队列的FIFO(先进先出) Hadoop1.x 默认的资源调度器,是Hadoop最早应用的一种调度策略 可以简单的将其理解为一个Java队列,它的含义在于集群

2021-09-29
Hadoop

Yarn的job提交流程详解

Yarn的job提交流程详解[TOC] 注:本文专业名字简称释义如下: MR : MapReduce RM:ResourceManager AM:ApplicationMaster NM:NodeManager 案例:MRJob流程详解​ 1、作业提交 Clinet 调用job.waitForCompletion方法,向整个集群提交MapReduce作业,并向ResourceMana

2021-09-29
Hadoop Yarn
1…5678910

搜索

Hexo Fluid
载入天数... 载入时分秒...
总访问量 次 总访客数 人