课程介绍
注意0:欲购买此课程,获取安全购买链接,索要正版授权学习平台账号,务必加咨询QQ:2536379620
注意1:由于编码原因,试听课程视频画面清晰度不如最终购买的视频。最终购买视频的画面清晰度可参见以下两张图。图1 图2
注意2:正版良心视频,购买后有机会和原作者直接短暂技术交流。
注意3:感觉课程太难?没有信心?还在犹豫自己学的会学不会?我们的师傅带徒弟模式(5倍下单)会给您信心。我们承诺,商品详情,教学大纲,视频内容,所涉及技术,可获得原创作者老师微信或QQ和针对视频范围的精心指导。线上一对一师带徒辅导问答,针对视频内代码调试,使命必达,视频之外相关技术内容,行业内信息人脉,企业内推(如有),原创作者老师会竭诚帮助。
以上所示价格,只能自行学习视频和获取少量解答。师傅带徒弟课程(5倍下单左右,可以先和客服联系,可获得老师的联系方法和针对视频范围的精心指导。线上一对一师带徒辅导问答,针对视频内代码调试,使命必达。)
大数据高级工程师课程体系
经受3年的市场检验
内容持续更新
系统学习大数据技术
为什么学习大数据技术?
随着社会的发展,各行各业能收集到的数据越来越多,需要处理数据量也是越来越大,因此,各行各业与大数据技术的结合势在必行!
人们都知道云计算、人工智能、区块链是未来的趋势但是你知道它们三者的基础还是大数据技术吗?
课程大纲
01
大数据技术入门内容介绍
大数据技术入门内容介绍(5分钟)
02
大数据技术思想入门
【资料】大数据技术发展:大数据技术的起源(m4a,11.3MB)
【资料】大数据技术发展:Hadoop 技术生态圈的发展(m4a,10.8MB)
分布式存储的特点(14分钟) 暂无试看
分布式存储集群特点(12分钟)
分布式文件存储的流程(11分钟)
分布式计算的特点(11分钟)
主节点中的元数据是怎么存储的(12分钟)
03
分布式存储 - HDFS 集群安装配置
分布式存储内容介绍(2分钟)
HDFS 集群介绍(6分钟)
安装前准备:准备 3 台虚拟机(3分钟)
安装前准备:配置无密钥登录(7分钟)
安装前准备:配置 JAVA_HOME(5分钟)
安装前准备:关闭防火墙(2分钟)
安装包的下载和解压(7分钟)
配置 HDFS 的基本路径(3分钟)
创建名字节点和数据节点存储数据的文件目录(3分钟)
HDFS 相关配置值的设置(4分钟)
04
分布式存储 - HDFS 集群安装配置
配置 Java Home以及从节点(5分钟)
配置 HADOOP_HOME(4分钟)
HDFS 集群启动(4分钟)
验证 HDFS 集群是否正常(4分钟)
怎么样查看 HDFS 的日志信息(5分钟)
HDFS 集群正确停止的方式(3分钟)
05
分布式存储 - HDFS 集群的使用
HDFS Web UI 的讲解(8分钟)
HDFS shell 命令介绍(6分钟)
本地文件上传到 HDFS 集群(7分钟)
文件操作命令(5分钟)
修改文件的权限(3分钟)
df 和 du(3分钟)
文件恢复机制(10分钟)
准备一个大文件(5分钟)
HDFS 分布式文件写的过程(6分钟)
HDFS 分布式文件读的过程(4分钟)
06
分布式存储 - 数据块
数据块元数据(5分钟)
设置数据块的备份数(5分钟)
设置数据块的大小(6分钟)
数据块真正存储的地方(6分钟)
DataNode 和 NameNode 交互(6分钟)
HDFS 分布式文件删除的流程(3分钟)
07
分布式存储 - EditsLog 和 FsImage
回顾 NameNode 元数据是怎么存储的(4分钟)
EditsLog 存储目录和内容(8分钟)
EditsLog 记录每次元数据操作信息(10分钟)
EditsLog 合并的条件(4分钟)
EditsLog 恢复 NameNode 元数据(6分钟)
FsImage 文件内容(7分钟)
为什么还要 EditsLog 呢?(5分钟)
EditsLog 合并的流程(9分钟)
08
分布式计算内容
分布式计算内容介绍(3分钟)
09
分布式计算 - 基础
数据准备(6分钟)
回顾分布式计算的特点(5分钟)
Yarn 的作用(6分钟)
Yarn 的安装配置(8分钟)
Yarn 的 Web UI 简介(3分钟)
有了 Yarn 后的分布式计算(3分钟)
MapReduce 配置(9分钟)
创建项目(3分钟)
序列化的作用(10分钟)
Hadoop 序列化机制(11分钟)
10
分布式计算 - DistributedCount程序
DistributedCount 流程(7分钟)
Map 任务实现(7分钟)
Reduce 任务实现(6分钟)
Driver 实现(10分钟)
Map 端合并(4分钟)
代码优化(3分钟)
集群状态的变化(7分钟)
Map Task 的数量和文件大小的关系(6分钟)
11
分布式计算 - 移动计算而非移动数据
问题:为什么移动了数据块?(4分钟)
Yarn Web UI 查看日志(5分钟)
打开History Server 服务(11分钟)
MRAppMaster 计算资源的配置(6分钟)
YarnChild 计算资源的配置(7分钟)
代码中设置 MR 进程需要的资源(5分钟)
Yarn 中的 Container 概念(4分钟)
Yarn 应用启动流程(6分钟)
Container 分配规则一:最小最大规则(9分钟)
Container 分配规则二:整数倍规则(7分钟)
12
分布式计算 - 移动计算而非移动数据
Container 分配规则总结(2分钟)
数据块移动的原因(11分钟)
移动计算而尽可能少的移动数据(10分钟)
设置 reduce task 的数量(4分钟)
代码优化(4分钟)
13
分布式计算 - WordCount
WordCount 计算流程(8分钟)
WordCount Map Task 实现(6分钟)
Reduce Task 实现(5分钟)
WordCount Driver 实现(3分钟)
集群运行 WordCount(6分钟)
MapReduce 默认的分区规则(5分钟)
Input 和 Output Format(9分钟)
MapReduce 执行流程(4分钟)
WordCount 执行流程(8分钟)
Shuffle 和 Sort(8分钟)
14
分布式计算 - MapReduce On Yarn 运行原理
MapReduce On Yarn 运行原理(8分钟)
15
Hadoop 2 之 HDFS 安装
Hadoop 2 学习前说明(5分钟)
HDFS的安装(一)(34分钟)
WebUI看不了怎么办(4分钟)
HDFS的安装(二)(7分钟)
HDFS安装后的额外强调(3分钟)
16
Hadoop 2 之 HDFS 运维相关
Federation配置(19分钟)
ViewFS的配置(11分钟)
回退到一个NameNode的状态(6分钟)
告诉你怎么使用Snapshots(24分钟)
平衡数据(4分钟)
SafeMode(4分钟)
17
Hadoop 2 之 MapReduce 和 Yarn
Yarn的安装(10分钟)
MapReduce安装(14分钟)
MapReduce应用(了解即可)(18分钟)
Hadoop压缩机制(了解即可)(9分钟)
18
Hadoop 2 之文件格式(这章能理解代码即可)
text文件格式的读写(22分钟)
avro文件和parquet文件的讲解(10分钟)
avro文件的读写(能看懂代码即可)(21分钟)
parquet文件的读写(必须掌握)(15分钟)
sequenceFile文件(看懂代码即可)(9分钟)
sequenceFile合并小文件(19分钟)
CombineTextInputFormat(11分钟)
19
Hadoop 2 之 Yarn 资源调度机制
Yarn的三种资源调度机制(8分钟)
Capacity Scheduler(15分钟)
Yarn Fair Scheduler配置(9分钟)
20
阶段项目实战 - NCDC 气候数据分析实战(跟着操作一遍)
NCDC数据源的获取(20分钟)
NCDC数据字段的详解(18分钟)
NCDC数据的预处理(20分钟)
数据处理逻辑以及实现方案讲解(17分钟)
MapReduce代码实现讲解(23分钟)
Hadoop的本地安装(5分钟)
单元测试、集成测试以及验证(20分钟)
求每一年最高的温度(11分钟)