irpas技术客

MapReduce详细工作流程_水花一直飞_mapreduce的工作流程

网络投稿 4052

MapReduce工作流程 第一部分详细说明第二部分详细说明

第一部分详细说明

MapReduce默认输入处理类是FileInputFormat ------InputFormat源码链接 1.文本job提交 ------Job源码链接 2.FileInputFormat按照块大小(128m)进行切片 ------切片源码链接 3.切片信息,jar包(Job提交到集群运行时),配置信息上传到HDFS上,将任务提交到ResourceManager 4.ResourceManager启动AppMaster,AppMaster收到数据找ResourceManager申请资源,ResourceManager会分配两个Container,两个MapTask分别在Container中运行 5.默认的InputFormat>>TextInputFormat重写的RecordReader会返回一个LineRecordReader对象,它会一行一行的读取数据(读取到Mapper的map方法)>>我们写的Mapper方法就是继承自这个Mapper方法然后重写map类来自定义输出context的key和value值 6.map方法进行逻辑运算后将输出值输出到outputCollector中 7.数据会根据你设置的ReduceTask值来进行分区 ------分区源码链接 8.分区后的数据进入环形缓冲区(默认是100m) ------环形缓冲区源码链接 9.分区,排序(快排) 10.排序后数据被写到磁盘上(被分区且分区内有序) 11.Merge归并排序 12.combiner可以根据实际情况在设置后使用(继承Reduce方法与Reducer用法相同)

第二部分详细说明

1.流程图上的是两个分区,所以分配了两个ReduceTask,两个MapTask中相同的分区会进入到同一个ReduceTask中,进入ReduceTask中的数据会先往内存中存储,若内存不够则往磁盘中存储 2.数据再次进行归并排序 3.相同key值的数据为一组写入到Reducer中>>我们自定义的Reducer方法继承Reducer并重写了reduce方法 4.与开头的InputFormat类似,数据输出走的是OutputFormat的默认输出子类TextOutputFormat中重写的RecordWriter方法中返回的LineRecordWrite对象一行一行的输出数据 5.数据输出到集群或本地两个块


1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,会注明原创字样,如未注明都非原创,如有侵权请联系删除!;3.作者投稿可能会经我们编辑修改或补充;4.本站不提供任何储存功能只提供收集或者投稿人的网盘链接。

标签: #mapreduce的工作流程