1、介绍
Hive所有表和分区的元数据都通过Hive Metastore进行访问。使用JPOX ORM解决方案(Data Nucleus)持久化元数据,因此它支持的任何数据库都可以被Hive使用。它支持大多数商业关系数据库和许多开放源码数据库。请参阅下面一节中支持的数据库列表。
Hive Metastore库里的表之间的拓扑关系图如下:
有2种不同的方法来设置metastore服务器和metastore数据库使用不同的Hive配置:
简单来讲就是使用本地的Derby模式的
使用远程的数据库
1.1、基本配置参数相关配置参数如下所示。非metastore参数请参见配置Hive。也请参阅语言手册的Hive配置属性,包括Metastore和Hive Metastore安全。)
请参见配置Hive下的hivemetstore -site.xml文档。
Hive metastore是无状态的,因此可以有多个实例来实现高可用性。使用hive.metastore.uri可以指定多个远程元数据连接。Hive会默认使用列表中的第一个,但会在连接失败时随机选择一个,并尝试重新连接。
1.2、其他配置参数以下metastore配置参数是从旧文档中继承下来的,没有保证它们仍然存在。Hive当前的配置选项请参见HiveConf Java类,Metastore和Hive Metastore安全部分的语言手册的Hive配置属性的用户友好的描述Metastore参数。
配置datanucleus。强烈推荐使用autoStartMechanism,强烈建议为数据中心配置自动启动。
<property> ??? <name>datanucleus.autoStartMechanism</name> ??? <value>SchemaTable</value> </property> 1.4、默认配置默认配置将设置一个自带的metastore,它将在单元测试中使用。
1.5、本地/自带 Metastore数据库(Derby)自带的metastore数据库主要用于单元测试。一次只能有一个进程连接到metastore数据库,所以这不是一个实际的解决方案,但在单元测试中工作得很好。
对于单元测试,Metastore服务器的本地/嵌入式Metastore服务器配置与自带的数据库一起使用。
Derby是自带的metastore的默认数据库。
如果您希望将Derby作为网络服务器运行,以便可以从多个节点访问metastore,请参阅Hive Using Derby in server Mode。
1.6、远程Metastore数据库在此配置中,您将使用传统的独立RDBMS服务器。下面的示例配置将在MySQL服务器中设置一个metastore。建议实际使用metastore数据库的这种配置。
在本地/内嵌的metastore安装中,metastore服务器组件像Hive Client中的库一样被使用。每个Hive Client将打开一个连接到数据库,并对它进行SQL查询。确保执行Hive查询的机器可以访问数据库,因为这是一个本地存储。还要确保JDBC客户端库在Hive client的类路径中。这个配置通常在HiveServer2中使用(仅在HiveServer2中添加“——hiveseconf hive.metastore”)。uris=' '",或者使用hiveserver2-site.xml (Hive 0.14中提供)。
在远程metastore设置中,所有的Hive客户端将连接到一个metastore服务器,反过来查询数据存储(在这个例子中是MySQL)的元数据。Metastore服务器和客户端使用Thrift协议进行通信。从Hive 0.5.0开始,可以执行以下命令启动Thrift服务器:
hive --service metastore在Hive 0.5.0之前的版本中,需要通过直接执行Java来运行Thrift服务器:$JAVA_HOME/bin/java? -Xmx1024m -Dlog4j.configuration=file://$HIVE_HOME/conf/hms-log4j.properties -Djava.library.path=$HADOOP_HOME/lib/native/Linux-amd64-64/ -cp $CLASSPATH org.apache.hadoop.hive.metastore.HiveMetaStore
如果直接执行Java,那么JAVA_HOME, HIVE_HOME, HADOOP_HOME必须正确设置;CLASSPATH应该包含Hadoop、Hive (lib和auxlib)和Java jar。
1.8.1、服务端配置参数下面以Remote Metastore数据库为例。
从Hive 3.0.0 (Hive -16452)开始,metastore数据库存储了一个GUID,可以通过Thrift API get_metastore_db_uuid被metastore客户端查询,以识别后端数据库实例。HiveMetaStoreClient可以通过getMetastoreDbUuid()方法访问这个API。
1.8.2、客户端配置参数如果使用MySQL作为元数据的数据存储,在启动Hive Client或HiveMetastore Server之前,请将MySQL jdbc库放在HIVE_HOME/lib目录下。
1.9、支持的Metastore数据库类型Hive现在会记录metastore数据库中的模式版本,并验证metastore的模式版本是否与将要访问metastore的Hive二进制文件兼容。注意,默认情况下,用于隐式创建或修改现有模式的Hive属性是禁用的。Hive不会试图隐式改变metastore模式。当对旧模式执行Hive查询时,将无法访问metastore。
要抑制模式检查并允许metastore隐式修改模式,您需要在hive-site.xml中将配置属性hive.metastore.schema.verification设置为false。
从0.12版开始,Hive还包括一个离线模式工具来初始化和升级metastore模式。
2、元数据库表详解在第一章节的时候有介绍过metastore里面的库表之间的关系图
2.1、表详解掌握如下几个常用的表,就能够基本上玩转Metastore里的内容了。
附一段,根据表名,利用如下几个表查出这个表的重要信息的SQL语句
SELECT? concat(a2.name,a1.tbl_name,a4.integer_idx) AS primary_key ??????? ,a1.tbl_id ??????? ,a1.db_id ??????? ,a1.owner AS create_table_auth ??????? ,a1.sd_id ??????? ,a2.name AS database_name ??????? ,a5.param_value AS table_comments ??????? ,a1.tbl_name AS TABLE_NAME ??????? ,a1.tbl_type AS table_type ??????? ,a4.comment AS column_comments ??????? ,a4.column_name ??????? ,a4.type_name ??????? ,a3.location ??????? ,a3.input_format ??????? ,a3.output_format ??????? ,a4.integer_idx FROM??? ( ??????????? SELECT? tbl_id ??????????????????? ,db_id ??????????????????? ,OWNER ??????????????????? ,sd_id ???????? ???????????,tbl_name ??????????????????? ,tbl_type ??????????? FROM??? tbls ??????????? WHERE?? tbl_name = 'table_name' ??????? ) a1 LEFT JOIN dbs a2 ON????? a1.db_id = a2.db_id LEFT JOIN??? sds a3 ON????? a1.sd_id = a3.sd_id LEFT JOIN columns_v2 a4 ON????? a3.cd_id = a4.cd_id LEFT JOIN??? table_params a5 ON????? a1.tbl_id = a5.tbl_id AND???? a5.param_key = 'comment' WHERE?? a2.name <> 'default' 2.1.1、 TBLS(表的表头信息)表解释官方hive接口文档地址:https://hive.apache.org/javadocs/ ,在这个上面可以选择对应的hive版本之后再详细看里面的接口。
3.2、代码接口详解由于接口比较多,挑选几个重要的详细说明下
//获取所有的数据库 getAllDatabases //获取所有的表名 getAllTables //获取分区信息 getPartition //获取schema信息 getSchema //获取函数信息 getFunctions 3.3、代码样例 import org.apache.hadoop.hive.conf.HiveConf; import org.apache.hadoop.hive.metastore.HiveMetaStoreClient; import org.apache.hadoop.hive.metastore.api.FieldSchema; import org.apache.hadoop.hive.metastore.api.MetaException; import org.apache.hadoop.hive.metastore.api.Table; import org.apache.thrift.TException; import java.util.List; public class HiveMetastoreApi { ??? public static void main(String[] args) { ??????? HiveConf hiveConf = new HiveConf(); ??????? hiveConf.addResource("hive-site.xml"); ??????? HiveMetaStoreClient client = null; ??????? try { ??????????? client = new HiveMetaStoreClient(hiveConf); ??????? } catch (MetaException e) { ??????????? e.printStackTrace(); ??????? } ??????? //获取数据库信息 ??????? List<String> tablesList = null; ??????? try { ??????????? tablesList = client.getAllTables("db_name"); ??????? } catch (MetaException e) { ??????????? e.printStackTrace(); ??????? } ??????? System.out.print("db_name 数据所有的表:? "); ??????? for (String s : tablesList) { ??????????? System.out.print(s + "\t"); ??????? } ??????? System.out.println(); ??????? //获取表信息 ??????? System.out.println("db_name.table_name 表信息: "); ??????? Table table = null; ??????? try { ??????????? table = client.getTable("db_name", "table_name"); ??????? } catch (TException e) { ??????????? e.printStackTrace(); ??????? } ??????? List<FieldSchema> fieldSchemaList = table.getSd().getCols(); ??????? for (FieldSchema schema : fieldSchemaList) { ??????????? System.out.println("字段: " + schema.getName() + ", 类型: " + schema.getType()); ??????? } ??????? client.close(); ??? } }
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,会注明原创字样,如未注明都非原创,如有侵权请联系删除!;3.作者投稿可能会经我们编辑修改或补充;4.本站不提供任何储存功能只提供收集或者投稿人的网盘链接。 |