一、背景
目前总有一些场景:
例如1: 我上家公司也有这样做法的小伙伴,新建一个month=20150101分区,然后以为就可以读取数据叻。当然我理解你的心情。你在hive的某个表新建了一个month的文件夹,却要求它,说:你小子记住了,这就是你的新兄弟,一个新的month分区。
但是你要记住,它获取分区,是从元数据表中获取,而不是hdfs上;即使你hdfs数据删除了,还是可以读取到这些分区。但是:
我不建议大家这样做,永远都不建议。 就好比你送我一个东西,却不告诉我是什么,在哪里! 这个和没送 并没有任何区别。(当然也有所谓的解决方案作参考) 建立:使用hive的静态分区和动态分区,来创建分区,告诉它。二、介绍
我们平时通常是通过alter table add partition方式增加Hive的分区的,但有时候会通过HDFS put/cp命令往表目录下拷贝分区目录,如果目录多,需要执行多条alter语句,非常麻烦。Hive提供了一个"Recover Partition"的功能。
MSCK REPAIR TABLE table_name;
原理相当简单,执行后,Hive会检测如果HDFS目录下存在但表的metastore中不存在的partition元信息,更新到metastore中。
三、测试
#当前没有partition元信息hive> show partitions cr_cdma_bsi_mscktest;OKTime taken: 0.104 seconds#创建两个分区目录hive> dfs -mkdir /user/hive/warehouse/cr_cdma_bsi_mscktest/month=201603;hive> dfs -mkdir /user/hive/warehouse/cr_cdma_bsi_mscktest/month=201604;#使用MSCK修复分区hive> msck repair table cr_cdma_bsi_mscktest;OKPartitions not in metastore: cr_cdma_bsi_mscktest:month=201603Partitions not in metastore: cr_cdma_bsi_mscktest:month=201604Repair: Added partition to metastore cr_cdma_bsi_mscktest:month=201603Repair: Added partition to metastore cr_cdma_bsi_mscktest:month=201604Time taken: 0.286 seconds, Fetched: 2 row(s)#再次查看,发现已经成功更新元信息hive> show partitions cr_cdma_bsi_mscktest;OKmonth=201603month=201604Time taken: 0.102 seconds, Fetched: 1 row(s)
相关JIRA:HIVE-874