视频课程 人浏览 历史评分   更新时间: 30天前 随到随学

课程介绍

注意0:欲购买此课程,获取安全购买链接,索要正版授权学习平台账号,务必加咨询QQ:2536379620
注意1:由于编码原因,试听课程视频画面清晰度不如最终购买的视频。最终购买视频的画面清晰度可参见以下两张图。图1   图2
注意2:正版良心视频,购买后有机会和原作者直接短暂技术交流。
    
注意3:感觉课程太难?没有信心?还在犹豫自己学的会学不会?我们的师傅带徒弟模式(5倍下单)会给您信心。我们承诺, 商品详情,教学大纲,视频内容,所涉及技术,可获得原创作者老师微信或QQ和针对视频范围的精心指导。线上一 对一师带徒辅导问答,针对视频内代码调试,使命必达,视频之外相关技术内容,行业内信息人脉,企业内推(如有),原创作者老师会竭诚帮助。

以上所示价格,只能自行学习视频和获取少量解答。师傅带徒弟课程(5倍下单左右,可以先和客服联系,可获得老师的联系方法和针对视频范围的精心指导。线上一对一师带徒辅导问答,针对视频内代码调试,使命必达。)


本系列课程将基于RedHat Linux 7.4版本、Hadoop 2.7.3、Spark 2 版本多面介绍大数据的整体内容,让学员深入理解并学习运行机制和原理,从而进一步学习大数据的相关内容。

课程说明:

MapReduce定义:

MapReduce是一种可用于数据处理的编程框架。MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是"任务的分解与结果的汇总"。

在分布式计算中,MapReduce框架负责处理了并行编程中分布式存储、工作调度、负载均衡、容错均衡、容错处理以及网络通信等复杂问题,把处理过程高度抽象为两个函数:map和reduce,map负责把任务分解成多个任务,reduce负责把分解后多任务处理的结果汇总起来。

MapReduce适用的问题:

用MapReduce来处理的数据集(或任务)需要具备这样的特点:待处理的数据集可以分解成许多小的数据集,而且每一个小数据集都可以完全并行地进行处理。

MapReduce框架中的名词解释:

(1)split:
分片是指MapReduce框架将数据源根据一定的规则将源数据分成若干个小数据的过程;其中,一个小数据集,也被称为一个分片。

(2)Map:
Map有两层含义:
其一、是指MapReduce框架中的Map过程,即将一个分片根据用户定义的Map逻辑处理后,经由MapReduce框架处理,形成输出结果,供后续Reduce过程使用;
其二,是指用户定义Java程序实现Mapper类的map接口的用户自定义逻辑,此时通常被称为mapper。

(3)Reduce:
Reduce也有两层含义:
其一,是指MapReduce框架中的Reduce过程,即将Map的结果作为输入,根据用户定义的Reduce逻辑,将结果处理并汇总,输出最后的结果;
其二,是指用户定义Java程序实现Reducer类的reduce接口的用户自定义逻辑,此时通常被称为reducer。

(4)Combine:
Combine是一个可由用户自定的过程,类似于Map和Reduce,MapReduce框架会在Map和Reduce过程中间调用Combine逻辑(会在下面章节中仔细讲解),通常Combine和reduce的用户代码是一样的(也可被称为本地的reduce过程),但是请注意并不是所有用MapReduce框架实现的算法都适合增加Combine过程(比如求平均值)。

(5)Partition:
在MapReduce框架中一个split对应一个map,一个partiton对应一个reduce(无partition指定时,由用户配置项指定,默认为1个)。 reduce的个数决定了输出文件的个数。比如,在需求中,数据是从对每个省汇总而成,要求计算结果按照省来存放,则需要根据源数据中的表明省的字段分区,用户自定义partition类,进行分区。

课程目标

本系列课程将基于RedHat Linux 7.4版本、Hadoop 2.7.3、Spark 2 版本多面介绍大数据的整体内容,让学员深入理解并学习运行机制和原理,从而进一步学习大数据的相关内容。

适用人群

具备Java基础学员,并想进一步学习大数据的学员。

课程大纲

01
课程概述

【录播】MapReduce课程概述(10分钟)       免费试学
02
MapReduce编程基础

【录播】案例分析:WordCount数据处理的过程(31分钟)

【录播】开发自己的WordCount程序(35分钟)

【录播】案例分析:求每个部门的工资总额(17分钟)

【录播】开发MapReduce程序实现求部门的工资总额(17分钟)
03
MapReduce的特性一:序列化

【录播】Hadoop的序列化机制(38分钟)

【录播】在MapReduce程序中使用序列化(14分钟)
04
MapReduce的特性二:排序

【录播】数字的排序(21分钟)

【录播】字符串的排序(22分钟)

【录播】对象的排序(29分钟)
05
MapReduce的特性三:分区和合并

【录播】什么是分区(24分钟)

【录播】分区案例:根据部门号建立分区(25分钟)

【录播】什么是Combiner(41分钟)
06
MapReduce的核心:Shuffle

【录播】什么是Shuffle(洗牌)?(27分钟)
07
MapReduce编程案例

【录播】编程案例一:数据去重(21分钟)

【录播】知识回顾:关系型数据库中的多表查询(15分钟)

【录播】编程案例二:分析等值连接的数据处理流程(19分钟)

【录播】编程案例二:实现等值连接的数据处理流程(19分钟)

【录播】编程案例三:分析自连接的数据处理流程(20分钟)

【录播】编程案例三:实现自连接的数据处理流程(21分钟)

【录播】案例四:分析倒排索引的数据处理过程(31分钟)

【录播】案例四:编程实现倒排索引(22分钟)

【录播】案例五:使用MRUnit进行单元测试(33分钟)
08
课程资料

【资料】课程资料(zip,2.4MB)
相关推荐
客服 关于