以MapReduce编程五步走为基础,说MapReduce工作原理-创新互联

在之前的Hadoop是什么中已经说过MapReduce采用了分而治之的思想,MapReduce主要分为两部分,一部分是Map——分,一部分是Reduce——合

公司主营业务:成都网站设计、成都做网站、移动网站开发等业务。帮助企业客户真正实现互联网宣传,提高企业的竞争能力。创新互联建站是一支青春激扬、勤奋敬业、活力青春激扬、勤奋敬业、活力澎湃、和谐高效的团队。公司秉承以“开放、自由、严谨、自律”为核心的企业文化,感谢他们对我们的高要求,感谢他们从不同领域给我们带来的挑战,让我们激情的团队有机会用头脑与智慧不断的给客户带来惊喜。创新互联建站推出慈利免费做网站回馈大家。

MapReduce全过程的数据都是以键值对的形式存在的
如果你想了解大数据的学习路线,想学习大数据知识以及需要免费的学习资料可以加群:784789432.欢迎你的加入。每天下午三点开直播分享基础知识,晚上20:00都会开直播给大家分享大数据项目实战。

首先,我们假设我们有一个文件,文件中存了以下内容

hive spark hive hbase
hadoop hive spark
sqoop flume scala

这里涉及到一个偏移量(一个字符或空格为1位)
第一行的偏移量为0,内容为“hive spark hive hbase”
第二行的偏移量为21,内容为“hadoop hive spark”
第三行的偏移量为39,内容为“sqoop flume scala”

Map
输入
MapReduce处理的数据是从HDFS中读出来的
以偏移量为key,内容value,则存在:
(0,“hive spark hive hbase”)
(21,“hadoop hive spark”)
(39,“sqoop flume scala”)
输出
将输入的value中的词以空格为分割逐个取出来做key,1做value存起来
(hive,1)
(spark,1)
(hive,1)
(hbase,1)
(hadoop,1)
注意:有多少行,Map就要循环做几次
shuffle(之后会详细说,这里简单解释)
输入
map的输出
输出
相同的key的value进行合并
这里合并不是进行累加或别的运算,而是合并到一个集合中
(hive,[1,1,1])
(spark,[1,1])
(hbase,[1])
(hadoop,[1])
。。。。。。
reduce
输入
shuffle的输出
输出
根据业务将value进行合并
例如当前的业务就会将value进行累加
MapReduce处理数据五步走
整个MapReduce程序,所有数据以(key,value)形式流动

第一步:input
正常情况下不需要写代码
仅仅在MapReduce程序运行的时候指定一个路径即可

第二步:map(核心)
map(key,value,output,context)
key:每行数据的偏移量——基本没用
value:每行数据的内容——真正需要处理的内容

第三步:shuffle
不需要写代码

第四步:reduce(核心)
reduce(key,value,output,context)
key:业务需求中的key
value:要聚合的值

第五步:output
正常情况下不需要写代码
仅仅在MapReduce程序运行的时候指定一个路径即可

工作原理
这里写图片描述

另外有需要云服务器可以了解下创新互联scvps.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。


当前名称:以MapReduce编程五步走为基础,说MapReduce工作原理-创新互联
URL链接:http://pwwzsj.com/article/diieso.html