Hive的内部表、外部表、分区表与分桶表

Hive的内部表、外部表、分区表与分桶表[TOC] 内部表&外部表定义：未被external修饰的是内部表（managed table），被external修饰的为外部表（external table）；二者区别区别内部表managed table 外部表external table 数据管理 Hive自身管理 HDFS管理存储位置 hive.metastore.

2021-10-07

Hive

Hive数据倾斜的原因和处理

Hive数据倾斜的原因和处理[TOC] 数据倾斜概念数据倾斜就是数据的分布不平衡，某些地方特别多，某些地方又特别少，导致的在处理数据的时候，有些很快就处理完了，而有些又迟迟未能处理完，导致整体任务最终迟迟无法完成，这种现象就是数据倾斜。针对mapreduce的过程来说就是，有多个reduce，其中有一个或者若干个reduce要处理的数据量特别大，而其他的r

2021-10-06

Hive 数据倾斜

Hive如何调优

Hive 调优[TOC] 调优根源 Hive性能优化时，把HiveQL当做MapReduce程序来读，即从MapReduce的运行角度来考虑优化性能，从更底层思考如何优化运算性能，而不仅仅局限于逻辑代码的替换层面，所以Hive的优化即MapReduce的优化。 RAC（Real Application Cluster）真正应用集群就像一辆机动灵活的小货车，响应快；

2021-10-06

Hive 调优

Hive的自定义函数的实现

Hive自定义函数[TOC] 为什么需要自定义函数 hive的内置函数满足不了所有的业务需求。 hive提供很多的模块可以自定义功能，比如：自定义函数、serde、输入输出格式等。常见的自定义函数 UDF：用户自定义函数，user defined function。一对一的输入输出。（最常用的）。 UDTF：用户自定义表生成函数。user defined table-generate func

2021-10-06

Hive

Hive中行列转换的实现

Hive行列转换[TOC] 1、行转列 (根据主键，进行多行合并一列)使用函数：concat_ws(‘,’,collect_set(column)) collect_list 不去重 collect_set 去重 column 的数据类型要求是 string 1.1、构建测试数据创建数据 vi row_to_col.txt 12345孙悟空,白羊座,A大海,射手座,A宋宋,白羊座,B猪八戒,白

2021-10-06

Hive

Hive中PartitionBy、OrderBy、DistrbuteBy等的关系与作用详解

2021-10-06

Hive

Hive的特点

2021-10-06

Hive

HQL的执行流程

HQL的执行流程[TOC] Hive的体系结构Hive的定义：就是一个简单的数据管理系统，因为他本身不存储数据，而且它的数据处理引擎是Hadoop的MapReduce 所以它的架构大致便有三个： Client：客户端负责提交查询语句 RDBMS：mysql负责储存表结构（Schema） Hadoop：HDFS负责存储表数据 Hive的执行原理执行流程 Start：Client客户端提交HQL

2021-10-06

Hive

Hadoop的调度器详解

简述Hadoop的调度器[TOC] hadoop调度器的作用是将系统中空闲的资源按一定策略分配给作业。调度器是一个可插拔的模块，用户可以根据自己的实际应用要求设计调度器。Hadoop中常见的调度器有三种，分别为： 1、基于队列的FIFO（先进先出） Hadoop1.x 默认的资源调度器，是Hadoop最早应用的一种调度策略可以简单的将其理解为一个Java队列，它的含义在于集群

2021-09-29

Hadoop

Yarn的job提交流程详解

Yarn的job提交流程详解[TOC] 注：本文专业名字简称释义如下： MR : MapReduce RM：ResourceManager AM：ApplicationMaster NM：NodeManager 案例：MRJob流程详解 1、作业提交 Clinet 调用job.waitForCompletion方法，向整个集群提交MapReduce作业，并向ResourceMana

2021-09-29

Hadoop Yarn