irpas技术客

数据湖&数据仓库&仓湖一体_敦兮其若朴,旷兮其若谷_数据湖仓一体

大大的周 4062

数据湖&数据仓库&仓湖一体

首先提及一个最常用的概念数据库, 但凡是线系统基本都离不开数据库。数据库最主要的功能就是要强调事务处理, 比如 QPS(每秒查询数)、TPS(每秒事务数) 和 IOPS(每秒读写数) 但是数据库擅长的是事务性工作, 对于分析型的工作并不擅长,于是诞生了数据仓库。 随着企业持续的发展,虽然含金量比较高的数据都在”数据库“和”数据仓库“中。但是公司希望把生产经营相关的所有数据都保存下来,方便后续沙中淘金,可以构建起来数据湖。| 而根据数据湖和数据仓库的特点,数据仓库前期构建成本高,但是随着业务数据增长后期成本可控。而数据湖的特点是前期的构建成本很低。但是随着业务数据增多后期的成本越来越高。为了结合两部分的优缺点构建了仓湖一体的概念来建设系统。

核心概念 数据仓库:数据仓库是一种面向商务智能(BI) 活动(尤其是分析)的数据管理系统,它仅适用于查询和分析,通常涉及大量的历史数据。数据湖:一种在系统或存储库中以自然格式存储数据的方法,它有助于以各种模式和结构形式配置数据,通常是对象块或文件仓湖一体:是一种新型开放式架构,将数据湖和数据仓库的优势充分结合,它构建在数据湖低成本的数据存储架构之上,又继承了数据仓库的数据处理和管理功能。 典型应用

数据库:Mysql、MongoDB 数据仓库:GreenPlum、Teradata 数据湖:Hudi、Delta、Iceberg 仓湖一体:阿里云MaxCompute、火山引擎-LAS、华为云FusionInsigh

整体架构

当前典型的湖仓一体的架构如下图所示:

蓝色数据流是离线数据流,实现离线数据湖能力,数据通过批量集成,存储到Hudi,再通过Spark进行加工。红色数据流是实时流,数据通过CDC实时捕获,通过Flink实时写入Hudi;通过Redis做变量缓存,以实现实时数据加工处理,之后送到诸如Clickhouse 、Redis、Hbase等专题集市里对外提供服务

总结

从数据库、数据仓库、数据湖、再到湖仓一体其实整体的演进过程都是针对不同的业务需求逐步演进出来的。 LakeHouse是一种当前比较新数据管理范式,从根本上简化了企业数据基础架构,并且有望在机器学习已渗透到每个行业的时代加速创新。但是仓湖一体也不是万能药,相信在未来发展变化的过程中,会涌现出来更新的需求和架构来满足不同业务发展的诉求。

参考 标题URLWhat Is a Lakehouse?https://databricks.com/blog/2020/01/30/what-is-a-data-lakehouse.html数据仓库是什么?https://·/article/201


1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,会注明原创字样,如未注明都非原创,如有侵权请联系删除!;3.作者投稿可能会经我们编辑修改或补充;4.本站不提供任何储存功能只提供收集或者投稿人的网盘链接。

标签: #数据湖仓一体 #但凡是线系统基本都离不开数据库 #比如 #