Hive基础知识-基础架构

2022-04-23

关注官方文档：

Apache Hive

Home - Apache Hive - Apache Software Foundation

上一张最经典的Hive架构图：

在这里插入图片描述

其中出现了几个关机的模块

Meta store
Client
MapReduce
HDFS

理解了上面几个关键模块，也就理解了Hive的架构：

Meta store

玩大数据一定要知道什么叫元数据(Meta store)，

元数据就是描述数据的数据。听起来有点绕口，但一定要理解。何为描述数据的数据？举个例子，我们拿到了一批用户数据，这些数据包含了2021年至2023年的上海市的抽烟男性数据。上述对这些数据描述的信息就是元数据。具体到数据里面，可能会先把这些用户具体的数据存储到存储引擎，2021年至2023年的上海市的男性抽烟数据 描述这个数据的信息放到元数据信息里。

Hive选择使用MySQL来存储元数据，也就是将真实的存储数据放到了底层(下面讲的HDFS)，将描述这些数据的信息放到了MySQL里。

Client

MapReduce

HDFS

放在最下面的是数据存储模块，Hive选择了使用HDFS来进行底层数据的存储，所以选择了Hive，也就选择了Hadoop。

jsonContent: meta: false pages: false posts: title: true date: true path: true text: false raw: false content: false slug: false updated: false comments: false link: false permalink: false excerpt: false categories: false tags: true