四、Hive DDL建表高阶

Hive内、外部表

什么是内部表

(资料图片)

内部表（Internal table）也称为被Hive拥有和管理的托管表（Managed table）。默认情况下创建的表就是内部表，Hive拥有该表的结构和文件。换句话说，Hive完全管理表（元数据和数据）的生命周期，类似于RDBMS中的表。

当您删除内部表时，它会删除数据以及表的元数据。

create table student( num int, name string, sex string, age int, dept string) row format delimited fields terminated by ',';

可以使用DESCRIBE FORMATTED ;来获取表的描述信息，从中可以看出表的类型。

什么是外部表

外部表（External table）中的数据不是Hive拥有或管理的，只管理表元数据的生命周期。要创建一个外部表，需要使用EXTERNAL语法关键字。

删除外部表只会删除元数据，而不会删除实际数据。在Hive外部仍然可以访问实际数据。

而且外部表更为方便的是可以搭配location语法指定数据的路径。

create external table student_ext( num int, name string, sex string, age int, dept string)row format delimitedfields terminated by ','location '/stu';

可以使用DESC FORMATTED itcast. student_ext;来获取表的描述信息，从中可以看出表的类型。

内部表、外部表差异

无论内部表还是外部表，Hive都在Hive Metastore中管理表定义及其分区信息。删除内部表会从Metastore中删除表元数据，还会从HDFS中删除其所有数据/文件。

删除外部表，只会从Metastore中删除表的元数据，并保持HDFS位置中的实际数据不变。

如何选择内部表、外部表

当需要通过Hive完全管理控制表的整个生命周期时，请使用内部表。

当文件已经存在或位于远程位置时，请使用外部表，因为即使删除表，文件也会被保留。

Hive分区表

分区表的引入、产生背景

现有6份数据文件，分别记录了《王者荣耀》中6种位置的英雄相关信息。现要求通过建立一张表t_all_hero，把6份文件同时映射加载。

加载数据文件到HDFS指定路径下：

现要求查询role_main主要定位是射手并且hp_max最大生命大于6000的有几个，sql语句如下：

思考一下：where语句的背后需要进行全表扫描才能过滤出结果，对于hive来说需要扫描表下面的每一个文件。如果数据文件特别多的话，效率很慢也没必要。本需求中，只需要扫描文件即可，如何优化可以加快查询，减少全表扫描呢？

分区表的概念、创建

当Hive表对应的数据量大、文件多时，为了避免查询时全表扫描数据，Hive支持根据用户指定的字段进行分区，分区的字段可以是日期、地域、种类等具有标识意义的字段。比如把一整年的数据根据月份划分12个月（12个分区），后续就可以查询指定月份分区的数据，尽可能避免了全表扫描查询。

分区表建表语法：

针对《王者荣耀》英雄数据，重新创建一张分区表t_all_hero_part，以role角色作为分区字段。

需要注意：分区字段不能是表中已经存在的字段，因为分区字段最终也会以虚拟字段的形式显示在表结构上。

添加图片注释，不超过 140 字（可选）

分区表数据加载--静态分区

所谓静态分区指的是分区的字段值是由用户在加载数据的时候手动指定的。

语法如下：

Local表示数据是位于本地文件系统还是HDFS文件系统。关于load语句后续详细展开讲解。

静态加载数据操作如下，文件都位于Hive服务器所在机器本地文件系统上。

分区表数据加载--动态分区

往hive分区表中插入加载数据时，如果需要创建的分区很多，则需要复制粘贴修改很多sql去执行，效率低。因为hive是批处理系统，所以hive提供了一个动态分区功能，其可以基于查询参数的位置去推断分区的名称，从而建立分区。

所谓动态分区指的是分区的字段值是基于查询结果自动推断出来的。核心语法就是insert+select。

启用hive动态分区，需要在hive会话中设置两个参数：

set =true;

set =nonstrict;

第一个参数表示开启动态分区功能，第二个参数指定动态分区的模式。分为nonstick非严格模式和strict严格模式。strict严格模式要求至少有一个分区为静态分区。

创建一张新的分区表t_all_hero_part_dynamic

执行动态分区插入

动态分区插入时，分区值是根据查询返回字段位置自动推断的。

分区表的本质

外表上看起来分区表好像没多大变化，只不过多了一个分区字段。实际上在底层管理数据的方式发生了改变。这里直接去HDFS查看区别。

非分区表：t_all_hero

分区表：t_all_hero_part

分区的概念提供了一种将Hive表数据分离为多个文件/目录的方法。不同分区对应着不同的文件夹，同一分区的数据存储在同一个文件夹下。只需要根据分区值找到对应的文件夹，扫描本分区下的文件即可，避免全表数据扫描。

分区表的使用

分区表的使用重点在于：

一、建表时根据业务场景设置合适的分区字段。比如日期、地域、类别等；

二、查询的时候尽量先使用where进行分区过滤，查询指定分区的数据，避免全表扫描。

比如：查询英雄主要定位是射手并且最大生命大于6000的个数。使用分区表查询和使用非分区表进行查询，SQL如下：

想一想：底层执行性能来说，分区表的优势在哪里？

分区表的注意事项

分区表不是建表的必要语法规则，是一种优化手段表，可选；

分区字段不能是表中已有的字段，不能重复；

分区字段是虚拟字段，其数据并不存储在底层的文件中；

分区字段值的确定来自于用户价值数据手动指定（静态分区）或者根据查询结果位置自动推断（动态分区）

Hive支持多重分区，也就是说在分区的基础上继续分区，划分更加细粒度

多重分区表

通过建表语句中关于分区的相关语法可以发现，Hive支持多个分区字段：PARTITIONED BY (partition1 data_type, partition2 data_type,….)。

多重分区下，分区之间是一种递进关系，可以理解为在前一个分区的基础上继续分区。从HDFS的角度来看就是文件夹下继续划分子文件夹。比如：把全国人口数据首先根据省进行分区，然后根据市进行划分，如果你需要甚至可以继续根据区县再划分，此时就是3分区表。

多分区表的数据插入和查询使用

Hive分桶表

分桶表的概念

分桶表也叫做桶表，源自建表语法中bucket单词。是一种用于优化查询而设计的表类型。该功能可以让数据分解为若干个部分易于管理。

在分桶时，我们要指定根据哪个字段将数据分为几桶（几个部分）。默认规则是：Bucket number = hash_function(bucketing_column) mod num_buckets。

可以发现桶编号相同的数据会被分到同一个桶当中。hash_function取决于分桶字段bucketing_column的类型：

如果是int类型，hash_function(int) == int;

如果是其他类型，比如bigint,string或者复杂数据类型，hash_function比较棘手，将是从该类型派生的某个数字，比如hashcode值。

分桶表的语法

其中CLUSTERED BY (col_name)表示根据哪个字段进行分；

INTO N BUCKETS表示分为几桶（也就是几个部分）。

需要注意的是，分桶的字段必须是表中已经存在的字段。

分桶表的创建

现有美国2021-1-28号，各个县county的新冠疫情累计案例信息，包括确诊病例和死亡病例，数据格式如下所示：

字段含义如下：count_date（统计日期）,county（县）,state（州）,fips（县编码code）,cases（累计确诊病例）,deaths（累计死亡病例）。

根据state州把数据分为5桶，建表语句如下：

在创建分桶表时，还可以指定分桶内的数据排序规则

分桶表的数据加载

到HDFS上查看t_usa_covid19_bucket底层数据结构可以发现，数据被分为了5个部分。

并且从结果可以发现，只要hash_function(bucketing_column)一样的，就一定被分到同一个桶中。

分桶表的使用好处

和非分桶表相比，分桶表的使用好处有以下几点：

基于分桶字段查询时，减少全表扫描

JOIN时可以提高MR程序效率，减少笛卡尔积数量对于JOIN操作两个表有一个相同的列，如果对这两个表都进行了分桶操作。那么将保存相同列值的桶进行JOIN操作就可以，可以大大较少JOIN的数据量。

分桶表数据进行抽样

当数据量特别大时，对全体数据进行处理存在困难时，抽样就显得尤其重要了。抽样可以从被抽取的数据中估计和推断出整体的特性，是科学实验、质量检验、社会调查普遍采用的一种经济有效的工作和研究方法。

四、Hive DDL建表高阶

Hive内、外部表

什么是内部表(资料图片)

什么是外部表

内部表、外部表差异

如何选择内部表、外部表

Hive分区表

分区表的引入、产生背景

分区表的概念、创建

分区表数据加载--静态分区

分区表数据加载--动态分区

分区表的本质

分区表的使用

分区表的注意事项

多重分区表

Hive分桶表

分桶表的概念

分桶表的语法

分桶表的创建

分桶表的数据加载

分桶表的使用好处

推荐内容

大数据离线阶段07：Hive DDL建表高阶

恒生电子：上半年净利润4.46亿元 同比扭亏

8月28日阿特斯涨5.37%，摩根新兴动力混合A基金持有该股

晨讯科技(02000.HK)上半年收益达2.98亿港元 同比增长6.98%

阿里在北京成立平头哥公司 注册资本500万元！

中信银行信用卡深度融入“新零售”发展全局

「文明随手拍」人人参与、齐抓共管——崂山区王哥庄街道唐家庄村积极开展“文明青岛随手拍”宣传推广活动

山西证券：旅游市场全面增长 出境游复苏显著

共促两岸民众健康福祉 沪卫健委副主任罗蒙：期待“双城联动”开创更多医学合作

OPPO 新专利解决苹果 eSIM 卡问题 卡槽不够手机壳来凑

合燃华润燃气全力推进暑期学校燃气项目建设

主力资金连续5日以上净流入有方科技等58股

莲花霜(关于莲花霜简述)

菜刀门(关于菜刀门简述)

乔治白：最新股东数据是截止2023年8月18日，公司股东总户数为22027户

历史最佳二季度表现后，爱奇艺想为用户提供更多价值

李凯尔9中0 赵睿17分 周琦12+5 中国42分惨败塞尔维亚

男子地铁4号线上猥亵女乘客？北京警方：已行拘

各地和有关部门多举措加快灾后重建

消息人士：埃尔多安近期访俄，对恢复黑海粮食协议“至关重要”

7银行率先披露快报4家利润同比增超20% 盈利能力或总体趋稳

平遥县人民检察院开展“能力作风建设提升年”活动

蔚来汽车已在全国布局 1700 座换电站，共计 17644 根充电桩

43个展位、200余种农产品，乡村振兴品牌节云展播人气爆棚！

大兴安岭地区市场监管局关于规范食盐市场价格行为的提醒告诫书

成都市青少年体育联合会青少年帆船、桨板比赛举行

福安药业(300194)每日收评(08-28)

莲阳河特大桥(关于莲阳河特大桥简述)

竟有邮局雪糕、船形雪糕！这些与交通有关的限定版雪糕在上海哪里可以品尝？

28~30日上海有强降水！暴雨大风马上来袭，目前“两蓝一黄”预警高挂！

2023凉山技校排名前十名单 凉山口碑最好的技校

海油工程：请参考2023年半年度报告

康盛股份（002418）8月28日主力资金净买入596.39万元

维尔利（300190）8月28日主力资金净买入1481.39万元

种植历史追溯到400多年前兴化林湖种出的葡萄大又甜

曝三星S24将搭载定制版骁龙8 Gen3移动平台 性能更强

中钢国际：中国宝武八一钢铁HyCROF2500m3高炉改造项目已完成80%工程量

瀚叶股份(600226)每日收评(08-28)

水价 关于水价介绍

台湾顶级灵媒现场通灵，道破白冰冰女儿绑架案：命中注定惨死

跪求柯南672后片尾ED 里面的小萝莉的资料

璞海(嘉鹏·25度海湾一号)房价为什么下跌（璞海(嘉鹏·25度海湾一号)最新房价消息）

莱芜站(关于莱芜站简述)

中国“桥都”又一大桥全面开工

国联证券：中国春来营利稳步推进下估值有望持续修复 首予“买入”评级

杭州亚运会场馆里藏着哪些“黑科技”?

“三台共舞”最新动态，将影响我国东南沿海

哈尔滨：支持网上销售哈尔滨地方特色产品 将对销售额达2000万元的网络销售主体给予补贴

浙江乐清市监局通报“餐厅用自来水勾兑饮料”：立案，查封

新荆州的新机遇，来了！

注意！三星医疗将于7月19日召开股东大会

火箭猫官网（火箭山猫）

当前A股估值已低于2008年水平 多家上市公司出手回购护盘

wouldyoumarryme wouldyoumarryme是什么意思回答

仙境传说RO《巴风特之怒》：新手游戏资源获取

云艺社教育：日系插画的场景应该通过哪些方法去营造情绪呢？

陇神戎发2023中报解读：营业收入和净利润大幅增长，现金流量净额亏损加大

中国工商银行湖北省分行党委委员、副行长邱世杰接受审查调查

什么是内部表

(资料图片)

恒生电子：上半年净利润4.46亿元同比扭亏

晨讯科技(02000.HK)上半年收益达2.98亿港元同比增长6.98%

阿里在北京成立平头哥公司注册资本500万元！

山西证券：旅游市场全面增长出境游复苏显著

共促两岸民众健康福祉沪卫健委副主任罗蒙：期待“双城联动”开创更多医学合作

OPPO 新专利解决苹果 eSIM 卡问题卡槽不够手机壳来凑

李凯尔9中0 赵睿17分周琦12+5 中国42分惨败塞尔维亚

2023凉山技校排名前十名单凉山口碑最好的技校

曝三星S24将搭载定制版骁龙8 Gen3移动平台性能更强

水价关于水价介绍

国联证券：中国春来营利稳步推进下估值有望持续修复首予“买入”评级

哈尔滨：支持网上销售哈尔滨地方特色产品将对销售额达2000万元的网络销售主体给予补贴

当前A股估值已低于2008年水平多家上市公司出手回购护盘

紫光国微发布半年财报营收37.35亿元研发7.56亿元

陕西养老金将迎来重算补发陕西2023年养老金重算补发公式举例

中都物业2023上半年净亏损271.53万元中报速递

福日电子：公司主营业务为智能手机等智能终端产品业务、LED光电业务及贸易类业务

岚皋县鲜菜源生鲜配送有限公司负责人李德琴表示，在城关镇党委、镇政府的关心支持下，她对种植“高山生态菜”带动更多村民增收致富充满信心兴一个产业，带富一方百姓

有云相伴即刻出发｜华为云空间沙龙带你走进手机电影世界

灵活就业社保在什么时候交灵活就业人员医保需要交多少钱

白宫称：特朗普计划当选后的普遍关税将扼杀经济加剧通货膨胀

幺麻子再战IPO营收止步净利两连降出川之路艰难新增2万吨产能谁买单？

我国网民规模达10.79亿人互联网普及率达76.4%

鸿博股份跌停机构净买入6539万元

滴滴向小鹏汽车出售智能电动汽车相关资产和研发能力双方建立战略合作关系