视频课程 人浏览 历史评分   更新时间: 30天前 随到随学

课程介绍

注意0:欲购买此课程,获取安全购买链接,索要正版授权学习平台账号,务必加咨询QQ:2536379620
注意1:由于编码原因,试听课程视频画面清晰度不如最终购买的视频。最终购买视频的画面清晰度可参见以下两张图。图1   图2
注意2:正版良心视频,购买后有机会和原作者直接短暂技术交流。
    
注意3:感觉课程太难?没有信心?还在犹豫自己学的会学不会?我们的师傅带徒弟模式(5倍下单)会给您信心。我们承诺,商品详情,教学大纲,视频内容,所涉及技术,可获得原创作者老师微信或QQ和针对视频范围的精心指导。线上一对一师带徒辅导问答,针对视频内代码调试,使命必达,视频之外相关技术内容,行业内信息人脉,企业内推(如有),原创作者老师会竭诚帮助。

以上所示价格,只能自行学习视频和获取少量解答。师傅带徒弟课程(5倍下单左右,可以先和客服联系,可获得老师的联系方法和针对视频范围的精心指导。线上一对一师带徒辅导问答,针对视频内代码调试,使命必达。)


Spark 是现在非常流行、使用范围最广泛的大数据分布式计算技术,是做大数据开发必备的一项技能。

本课程主要是由浅入深的讲解 Spark 核心知识点,内容如下:

一、Spark 集群和开发环境的搭建
二、站在 high level 上理解 Spark
三、讲解 Spark RDD 的分布式计算原理和特点,以及常用的 API
四、项目实战:会话切割
五、阶段实战:TopN、数据倾斜等问题的解决
六、正确提交 Spark 应用,重点讲解 Spark On Yarn
七、Spark 中的应用、任务的调度机制(面试必问)


大数据高级工程师课程体系
经受3年的市场检验
内容持续更新
系统学习大数据技术

为什么学习大数据技术?
随着社会的发展,各行各业能收集到的数据越来越多,需要处理数据量也是越来越大,因此,各行各业与大数据技术的结合势在必行!
人们都知道云计算、人工智能、区块链是未来的趋势但是你知道它们三者的基础还是大数据技术吗?

课程大纲

01
学习 Spark 的环境配置

IntelliJ IDEA开发spark应用(11分钟)

spark源代码环境的搭建(7分钟)

Spark集群安装-虚拟机上Scala的安装(13分钟)

Spark集群环境的搭建(13分钟)

集群spark-submit提交应用(18分钟)

spark-shell说明(7分钟)

Spark的日志级别的设置(8分钟)

mysql的安装(后面会用到)(9分钟)

Spark模块学习说明(4分钟)
02
正确理解 Spark

Spark是怎么进行分布式计算的?(15分钟)

数据重新分区概述(9分钟)

Spark分布式计算流程中的几个疑问点(12分钟)

从上面的疑问中导出RDD的概念(11分钟)

实践:RDD API简单使用一(17分钟)

实践:RDD API简单使用二(11分钟)

理解Spark分布式内存计算的含义(14分钟)
03
Spark 核心组件介绍(了解即可)

Spark Core组件解决的问题及其特点(11分钟)

Spark SQL组件解决的问题及其特点一(21分钟)

Spark SQL组件解决的问题及其特点二(11分钟)

Spark Streaming组件(14分钟)

Spark Graphx组件(18分钟)

Spark ml组件(12分钟)
04
RDD 基础

再次理解RDD概念(14分钟)

补充课(18分钟)

怎么样创建RDD(必须掌握)(13分钟)

parallelize和makeRDD的实现原理(14分钟)

RDD的依赖设计及其特点(必须掌握)(17分钟)
05
RDD 分区

HashPartitioner原理(必须掌握)(14分钟)

实战:对RDD合理分区能提高性能(必须掌握)(18分钟)

RangePartitioner的原理(必须掌握)(19分钟)

Partitioner源码解析(16分钟)

Hash对比Range Partitioner(必须掌握)(8分钟)

实战:自定义Partitioner(必须掌握)(10分钟)

实战:coalesce使用场景(非常的重要)(12分钟)

coalesce原理讲解(16分钟)

coalesce源码解析(19分钟)
06
单 value 类型RDD 常用 API

单类型transformation api(必须掌握)(20分钟)

MapPartitionsRDD的原理代码详解(13分钟)

实践:RDD的pipe api的使用(18分钟)

RDD的pipe的原理深入讲解(16分钟)

单类型RDD的基本action api的讲解(21分钟)
07
key-value 类型 RDD 常用 API

combineBykey的七大参数的详解一(必须掌握)(19分钟)

combineBykey的七大参数的详解二(必须掌握)(15分钟)

ShuffleRDD的原理详解(17分钟)

基于combineByKey的api详解(18分钟)

实践:combineBykey实战(20分钟)

reduceByKey和groupByKey的对比(9分钟)

cogroup api的感官认识(必须掌握)(11分钟)

通过原理图和源代码详解cogroup原理(18分钟)

join等api的原理实现(10分钟)

sortedByKey原理(了解即可)(15分钟)
08
操作多个 RDD 的 API

union的使用及其原理(14分钟)

intersection(了解即可)(6分钟)

笛卡尔积(了解即可)(8分钟)

zip的使用及其原理(14分钟)
09
RDD 高级 API

RDD的缓存机制,即persist(14分钟)

checkpoint的作用和实现流程(14分钟)

checkpoint实现原理一(10分钟)

checkpoint实现原理二(11分钟)

broadcast的机制及其用法(必须掌握)(8分钟)

accumulator的使用及其自定义(11分钟)
10
Spark 读写文件系统

spark支持的读写存储系统(16分钟)

HadoopRDD的原理和实现(10分钟)

spark支持的通用的文件格式(16分钟)

二进制文件的读写(10分钟)

spark sql读写parquet and avro文件(16分钟)
相关推荐
客服 关于