irpas技术客

大数据呀大数据_CodeMartain

网络投稿 4692

大数据

啥是大数据? 我自己的一些经历–>>在做代码开发之前,一直觉得大数据这件事是高大上的一门学问,门槛很高,而且我上大学的时候这个词才刚刚在众多互联网记住中展露头角;

我的个人经历–>> 我上大学时那时候安卓的版本才到安卓4.4,在智能手机出来普及以前,各大网站的数据量并没有那么多,但是随着智能手机的普及,互联网巨头家里的数据呈现几何级增长,像什么微博,微信,视频网站的数据;

有了这些数据,各大互联网巨头都在想着法的将这些数据变现,但是这么多数据也给他们带来了一些问题:

1,海量的数据该怎么存储2,这些数据该怎么处理

随着从事互联网行业的年限增多,也渐渐对海量数据的存储和处理有了一些模糊的认知:

大数据的分布式存储,并行计算和实时数据流处理

新技术的发展

新技术的发展时间轴 我们国家在2014年才将大数据写入政府工作报告,但是我们的发展速度之快我们在日常生活中足以感受到;

大数据到底是什么?

我感觉大数据就像是比特币,需要从海量数据中挖掘有价值的信息;

这个海量数据: 1,规模大, 2,不是关系型数据中的信息那样有规律,而是多样性(有文本,图像视频等大量不直接相关的信息) 3,需要通过大量的计算和复杂的分析得到有价值的信息; 4,信息具有时效性决定了对大数据的利用要实现实时分析,实时呈现分析结果;

大数据核心技术

围绕着大数据的特点:

1,分布式存储架构,

面对海量数据—> 需要找到合适的存储方式—>>分布式存储架构,可以水平扩展,实现存储数据类型多样化,二维可以实现高容错高吞吐量,轻松实现大文件存储(支持P级别的数据存储)

数据的时效性—> 大规模的并行计算, 分布式的数据分发, 高可靠容错机制

Google的MapReduce

数据库的设计–> 海量数据该怎么存储,在分布式存储的大框架下,数据的存储方式—面向列式内存数据库 1,大表数据----数亿行以及数百万列 2,硬件需要有高性能的随机读取能力以及毫秒级的响应 3,稀疏存储,null的列不占用空间

2,新型分布式系统架构

3,大数据技术架构

4,大数据的解决架构

如今大数据已进入蓬勃发展阶段,大数据分析已经在我们身边等诸多领域有了充分应用—>>我们体会最深的可能要数各大视频软件给你推送的视频了,但这并不是我们现在要关心的;

上面的结构图确实比较复杂,对于小白怎么快速入门呢? 只需要快速了解各大厂商提供的云服务(他们都给你集成好了,直接拿来用他不香吗?

关于云服务----大数据

我们以华为云为例:

MRS

可以看到**MRS实现了从调度到计算,存储的服务,**剩下的厂商可以根据需要自己开发适合本厂的组件;

同时对于数据存储,厂商可以选择自己建立数据库也可以借助华为云数据湖工厂(DLF)来实现数据集成,开发,管理等操作(支持多种数据处理节点)

数据中台DGC

挖掘数据的价值----数据中台DGC 简单的理解数据中台就是对**数据进行一个全生命周期的管理,**包含数据的继承,规范设计,数据的开发与质量监控,数据的资产管理和可视化;

数据中台DGC可以无缝衔接MRS,DWS,DLI等数据底座的开发

MRS服务

MRS基于存算分离构建下一代数据平台

MRS目前有两个主流版本可以选择,1.x 和2.x版本,分别对应Hadoop2.x 和 3.x生态;

新集群建议选择3.x版本,以获得未来更稳定的生态支持如果业务存在历史版本,建议选择接近的MRS版本

如果1.x版本跟2.x版本均有部分组件无法完全兼容客户业务,则需要进行版本兼容性考量,一般情况下Hadoop生态底层组件的兼容通常优于上层组件;

MRS集群部署模式

MRS 3.x集群提供了 分析集群,流式集群,自定义集群.混合集群四种集群部署模式

混合集群模式安装的组件全 自定义集群是混合集群模式的扩展

一般是(在业务规划不明确的地方选择混合集群模式,安装组件结束后可以将不需要的组件关闭;

分析/流式集群模式并非安装全部组件,且 集群部署完毕不在支持安装组件了;


1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,会注明原创字样,如未注明都非原创,如有侵权请联系删除!;3.作者投稿可能会经我们编辑修改或补充;4.本站不提供任何储存功能只提供收集或者投稿人的网盘链接。

标签: #大数据呀大数据 #在智能手机出来普及以前 #各大网站的数据量并没有那么多 #但是随着智能手机的普及 #像什么微博 #微信