2-Hive的基本概念小笼包hive的基本概念

irpas 02-07 2058

2. Hive 的基本概念 2.1. Hive 简介什么是 Hive

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。

其本质是将SQL转换为MapReduce的任务进行运算，底层由HDFS来提供数据的存储，说白了hive可以理解为一个将SQL转换为MapReduce的任务的工具，甚至更进一步可以说hive就是一个MapReduce的客户端

为什么使用 Hive 采用类SQL语法去操作数据，提供快速开发的能力。避免了去写MapReduce，减少开发人员的学习成本。功能扩展很方便。 2.2. Hive 架构

用户接口：包括CLI、JDBC/ODBC、WebGUI。其中，CLI(command line interface)为shell命令行；JDBC/ODBC是Hive的JAVA实现，与传统数据库JDBC类似；WebGUI是通过浏览器访问Hive。元数据存储：通常是存储在关系数据库如mysql/derby中。Hive 将元数据存储在数据库中。Hive 中的元数据包括表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目录等。解释器、编译器、优化器、执行器: 完成HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在HDFS 中，并在随后有MapReduce 调用执行。 2.3. Hive 与 Hadoop 的关系

Hive利用HDFS存储数据，利用MapReduce查询分析数据

2.4. Hive与传统数据库对比

hive用于海量数据的离线数据分析

总结：hive具有sql数据库的外表，但应用场景完全不同，hive只适合用来做批量数据统计分析

2.5. Hive 的安装

这里我们选用hive的版本是2.1.1 下载地址为： http://archive.apache.org/dist/hive/hive-2.1.1/apache-hive-2.1.1-bin.tar.gz

下载之后，将我们的安装包上传到第三台机器的/export/softwares目录下面去

第一步：上传并解压安装包

将我们的hive的安装包上传到第三台服务器的/export/softwares路径下，然后进行解压

cd /export/softwares/ tar -zxvf apache-hive-2.1.1-bin.tar.gz -C ../servers/ 第二步：安装mysql

第一步：在线安装mysql相关的软件包

yum install mysql mysql-server mysql-devel

第二步：启动mysql的服务

/etc/init.d/mysqld start

第三步：通过mysql安装自带脚本进行设置

/usr/bin/mysql_secure_installation

第四步：进入mysql的客户端然后进行授权

grant all privileges on *.* to 'root'@'%' identified by '123456' with grant option;

flush privileges;

第三步：修改hive的配置文件

修改hive-env.sh

cd /export/servers/apache-hive-2.1.1-bin/conf cp hive-env.sh.template hive-env.sh HADOOP_HOME=/export/servers/hadoop-2.7.5 export HIVE_CONF_DIR=/export/servers/apache-hive-2.1.1-bin/conf

修改hive-site.xml

cd /export/servers/apache-hive-2.1.1-bin/conf vim hive-site.xml <?xml version="1.0" encoding="UTF-8" standalone="no"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <configuration> <property> <name>javax.jdo.option.ConnectionUserName</name> <value>root</value> </property> <property> <name>javax.jdo.option.ConnectionPassword</name> <value>123456</value> </property> <property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql://node03:3306/hive?createDatabaseIfNotExist=true&useSSL=false</value> </property> <property> <name>javax.jdo.option.ConnectionDriverName</name> <value>com.mysql.jdbc.Driver</value> </property> <property> <name>hive.metastore.schema.verification</name> <value>false</value> </property> <property> <name>datanucleus.schema.autoCreateAll</name> <value>true</value> </property> <property> <name>hive.server2.thrift.bind.host</name> <value>node03</value> </property> </configuration> 第四步：添加mysql的连接驱动包到hive的lib目录下

hive使用mysql作为元数据存储，必然需要连接mysql数据库，所以我们添加一个mysql的连接驱动包到hive的安装目录下，然后就可以准备启动hive了

将我们准备好的mysql-connector-java-5.1.38.jar 这个jar包直接上传到 /export/servers/apache-hive-2.1.1-bin/lib 这个目录下即可

至此，hive的安装部署已经完成，接下来我们来看下hive的三种交互方式

第五步：配置hive的环境变量

node03服务器执行以下命令配置hive的环境变量

sudo vim /etc/profile export HIVE_HOME=/export/servers/apache-hive-2.1.1-bin export PATH=:$HIVE_HOME/bin:$PATH 2.6. Hive 的交互方式第一种交互方式 bin/hive cd /export/servers/apache-hive-2.1.1-bin/ bin/hive

创建一个数据库

create database if not exists mytest; 第二种交互方式：使用sql语句或者sql脚本进行交互

不进入hive的客户端直接执行hive的hql语句

cd /export/servers/apache-hive-2.1.1-bin bin/hive -e "create database if not exists mytest;"

或者我们可以将我们的hql语句写成一个sql脚本然后执行

cd /export/servers vim hive.sql create database if not exists mytest; use mytest; create table stu(id int,name string);

通过hive -f 来执行我们的sql脚本

bin/hive -f /export/servers/hive.sql