irpas技术客

大数据学习-hive(四:离线数仓搭建流程)_宇智波云_离线数仓搭建

大大的周 4894

一:接需求

需求通常是其他部门提过来的。我们要和其他部门人员进行沟通,核实需求是否能完成,如果能完成最后要形成一个excl文档,把想要的字段都写在excl中,并和对方核对任务完成日期。如果完不成,提前告知对方。

二:查看所需数据 1. 所需数据在维表中。 这种情况直接写sql,将结果放在dm层即可。 2. 所需数据在ods层或者dwd层。 这些数据并没有在维表中,我们要想是否要建立一个新的维度,进行维度建模,如果不需要,则直接进行计算,将结果放在dm层。 3. 所需数据不在数仓中。 我们需要数据从其他部门,同步到我们的数仓中,使用工具例如sqoop,flume,datax等。 之后将数据存放到ods,清晰之后放在dwd,看是否需要维度建模,需要进行建模,不需要直接计算,将结果放在dm层。 三:编写脚本测试和上线。 1. 编写代码,写sql。 2. 进行检验sql,将代码放在hue中进行跑到,看是否可以跑成功,并且查看检验数据是否正确。 3. 之后将代码写入到idea中,通过git上传。 4. 通过genkins进行同步到我们数仓的目录下。 5. 上调度。 例如(dolphinscheduler)在调度工具中,添加阶段,连接依赖。 四:数据通过BI报表工具展示 将数据同步到mysql的某个库中,某个表中。使用报表工具链接mysql对应的库,表。通过BI制作展示结果。给需求部门人员开权限。报表工具(FinePort,FineBI,superset…)


1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,会注明原创字样,如未注明都非原创,如有侵权请联系删除!;3.作者投稿可能会经我们编辑修改或补充;4.本站不提供任何储存功能只提供收集或者投稿人的网盘链接。

标签: #离线数仓搭建 #如果完不成提前告知对方 #二查看所需数据1 #所需数据在维表中 #2