irpas技术客

Hive分布式数据仓库_小鸭子学java_分布式数据仓库hive

网络 4821

Hive是基于Hadoop的数据仓库软件 ? ? ?

数据库适用于OLTP(联机事务管理-增删改查的操作)__中的数据时实时更新的 数据仓库适用于OLAP(联机事务分析-对历史数据进行分析或者汇总)

特性:灵活方便的extract transform load ?? ? ? ? 支持 Tez(默认引擎) spark多种引擎 ? ? ? ? 可以直接访问HDFS HBase 应用场景----->数据挖掘 非实时性分析 数据汇总 数据仓库

? ? ? ?优点 高可靠(集群存储 一两个错误没影响)高容错 ?类似SQL语法 ?可扩展 ?多接口 接口:Beeline ? JDBC ?Thrift ?Python ?ODBC

Hive运行过程 Client提交HQL命令 Tez执行查询 YARN为集群中的应用程序分配资源 并未YARN队列中的Hive作业启用授权 Hive根据表类型更新HDFS或Hive仓库中的数据 Hive通过JDBC连接返回查询结果

? ? ? ? ? ? ?数据库--->区分不同业务的数据 ? ? ? ? ? ? ? ? 表 ?| 分区(按照字段|进行划分 ?相同的数据放到同一个分区) ? -桶(利用hash分区方式放到不同桶) ? ? ? 倾斜数据 正常数据 ? ? ? ? ? ? ? ? ? ? ? ? ?| ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? ? ? ? ? ? ? ? ? ? ? ?| 分区数量不固定 建表时指定桶个数 桶内可排序 内部表create table ? ? ? ? ? ? ? ? ? ? ? ? ? ?创建外部表 create external ?表名 ? ? ? ?临时表create temporary存放临时结果或中见结果 用于过度 会将数据移动到数据仓库指定的路径 ? localtion指定放在那个目录 ?可无 ? ? ? ?只在hive连接窗口有效 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?删除时 只删除元数据 普通表删除 元数据和数据一起删除 ? ??

Hive数据最终存储到了HDFS上 /user/hive/warehouse/ 可以不用分隔符;

离线批发工具__ 直梯___>高延迟 MapRuduce ? ?Hive 实时流处理____阶梯__>低延迟 Strom(Streaming)

关于Hive在Fusionlnsight HD中的架构结构描述 HiveServer负责接受客户端请求 解析 执行HQL命令并返回查询结果 MetaStore用于提供原数据服务 依赖于DBServer

?


1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,会注明原创字样,如未注明都非原创,如有侵权请联系删除!;3.作者投稿可能会经我们编辑修改或补充;4.本站不提供任何储存功能只提供收集或者投稿人的网盘链接。

标签: #分布式数据仓库hive #transform #load