Hive的内部表、外部表、分区表与分桶表 Hive的内部表、外部表、分区表与分桶表[TOC] 内部表&外部表定义:未被external修饰的是内部表(managed table),被external修饰的为外部表(external table); 二者区别 区别 内部表managed table 外部表external table 数据管理 Hive自身管理 HDFS管理 存储位置 hive.metastore. 2021-10-07 Hive
Hive数据倾斜的原因和处理 Hive数据倾斜的原因和处理[TOC] 数据倾斜概念 数据倾斜就是数据的分布不平衡,某些地方特别多,某些地方又特别少,导致的在处理数据的时候,有些很快就处理完了,而有些又迟迟未能处理完,导致整体任务最终迟迟无法完成,这种现象就是数据倾斜。 针对mapreduce的过程来说就是,有多个reduce,其中有一个或者若干个reduce要处理的数据量特别大,而其他的r 2021-10-06 Hive 数据倾斜
Hive如何调优 Hive 调优[TOC] 调优根源 Hive性能优化时,把HiveQL当做MapReduce程序来读,即从MapReduce的运行角度来考虑优化性能,从更底层思考如何优化运算性能,而不仅仅局限于逻辑代码的替换层面,所以Hive的优化即MapReduce的优化。 RAC(Real Application Cluster)真正应用集群就像一辆机动灵活的小货车,响应快; 2021-10-06 Hive 调优
Hive的自定义函数的实现 Hive自定义函数[TOC] 为什么需要自定义函数 hive的内置函数满足不了所有的业务需求。 hive提供很多的模块可以自定义功能,比如:自定义函数、serde、输入输出格式等。 常见的自定义函数 UDF:用户自定义函数,user defined function。一对一的输入输出。(最常用的)。 UDTF:用户自定义表生成函数。user defined table-generate func 2021-10-06 Hive
Hive中行列转换的实现 Hive行列转换[TOC] 1、行转列 (根据主键,进行多行合并一列)使用函数:concat_ws(‘,’,collect_set(column)) collect_list 不去重 collect_set 去重 column 的数据类型要求是 string 1.1、构建测试数据创建数据 vi row_to_col.txt 12345孙悟空,白羊座,A大海,射手座,A宋宋,白羊座,B猪八戒,白 2021-10-06 Hive
HQL的执行流程 HQL的执行流程[TOC] Hive的体系结构Hive的定义:就是一个简单的数据管理系统,因为他本身不存储数据,而且它的数据处理引擎是Hadoop的MapReduce 所以它的架构大致便有三个: Client:客户端负责提交查询语句 RDBMS:mysql负责储存表结构(Schema) Hadoop:HDFS负责存储表数据 Hive的执行原理执行流程 Start:Client客户端提交HQL 2021-10-06 Hive
Hadoop的调度器详解 简述Hadoop的调度器[TOC] hadoop调度器的作用是将系统中空闲的资源按一定策略分配给作业。调度器是一个可插拔的模块,用户可以根据自己的实际应用要求设计调度器。Hadoop中常见的调度器有三种,分别为: 1、基于队列的FIFO(先进先出) Hadoop1.x 默认的资源调度器,是Hadoop最早应用的一种调度策略 可以简单的将其理解为一个Java队列,它的含义在于集群 2021-09-29 Hadoop
Yarn的job提交流程详解 Yarn的job提交流程详解[TOC] 注:本文专业名字简称释义如下: MR : MapReduce RM:ResourceManager AM:ApplicationMaster NM:NodeManager 案例:MRJob流程详解 1、作业提交 Clinet 调用job.waitForCompletion方法,向整个集群提交MapReduce作业,并向ResourceMana 2021-09-29 Hadoop Yarn