视频课程 人浏览 历史评分   更新时间: 30天前 随到随学

课程介绍

注意0:欲购买此课程,获取安全购买链接,索要正版授权学习平台账号,务必加咨询QQ:2536379620
注意1:由于编码原因,试听课程视频画面清晰度不如最终购买的视频。最终购买视频的画面清晰度可参见以下两张图。图1   图2
注意2:正版良心视频,购买后有机会和原作者直接短暂技术交流。                


本课程价格是视频加师傅带徒弟保姆式答疑。只需视频 ,无需答疑者勿拍 。(纯视频不单卖,以此为理由不接受退款)答疑和视频分别付款。因为有人会单独购买答疑辅导部分。答 疑部分不允许单独退款。只有视频质量有问题时 视频和答疑同时退,不接受单独退款。


共10章110节视频,总学时1197分钟,合20小时。

主要内容包括:
强化学习的基本概念及实例解读与理论介绍,Q-Learning算法代码程序求解悬崖行走问题,SARSA算法代码程序再解悬崖行走问题,Q-Learning算法与SARSA算法的对比分析,Q-Learning算法自带函数程序求解网格世界优选路线,SARSA算法自带函数程序求解网格世界优选路线,策略迭代算法代码程序求解两地租车优化调度,值选代算法代码程序求解迷宫逃脱问题。

全部免费提供MATLAB程序和PPT课件。

免费提供辅导答疑。

课程大纲

第一章 视频课程内容介绍及慎拍不拍说明与参考文献(29+39分钟)

1、先看全面讲解9个关键重点问题和店主预言先告必看第三版(25+4分钟)

2、RL1_视频讲些什么及能干什么与程序演示结果(21分钟)

3、RL2_MATLAB程序使用说明及亮点特点介绍(6分钟)

4、RL3_慎拍不拍说明及学习基础要求与参考文献(12分钟)

第二章 强化学习的基本概念及实例解读与理论介绍(153分钟)

5、RL4_强化学习算法的基本思想及其应用领域(12分钟)

6、RL5_1强化学习基本模型解读及学习过程分析(18分钟)

7、RL5_2马尔科夫决策过程5要素解读分析(10钟)

8、RL5_3累计回报及状态值函数及最优定义(12分钟)

9、RL5_4行为值函数及最优策略等问题(17分钟)

10、RL5_5Bellman期望方程及其推导依据(17分钟)

11、RL5_6Bellman最优方程及其4个迭代算法(15分钟)

12、RL5_7学生活动强化学习实例及最优策略(22分钟)

13、RL5_8强化学习算法有解及可解问题的两处定理(6分钟)

14、RL5_9强化学习程序资料及学习对策(8分钟)

15、RL5_10思考强化学习7个问题及总结(16分钟,有程序)

第三章 Q-Learning算法代码程序求解悬崖行走问题(271分钟)

16、RL6_01Q-Learning更新公式与Bellman最优方程对比(18分钟,有程序)

17、RL6_02Q表结构及Q学习算法实现步骤说明(12分钟,有程序)

18、RL6_1Q-Learning算法学习目标及悬崖行走问题说明(8分钟,有程序)

19、RL6_2自学程序及RL6_1详解11点提纲(11分钟,有程序)

20、RL6_3环境创建与参数设置问题(9分钟,有程序)

21、RL6_4命令sub2ind作用及maxQ含义解读(9分钟,有程序)

22、RL6_5详解函数trans设置动作走向与奖励(11分钟,有程序)

23、RL6_6某片段第1步循环操作过程程序详解(10分钟,有程序)

24、RL6_7某片段各步循环到终点程序详解(12分钟,有程序)

25、RL6_8训练好的Q表分析与详解(9分钟,有程序)

26、RL6_9片段回报及其含义与图像分析(8分钟,有程序)

27、RL6_10片段包含步数指标及作用与图像分析(11分钟,有程序)

28、RL6_11状态行为对访问次数及其含义和作用(10分钟,有程序)

29、RL6_12最优策略获取及3个存储变量含义(12分钟,有程序)

30、RL6_13环境绘图及起终点坐标对应关系(8分钟,有程序)

31、RL6_14最优策略绘图程序详解与图像分析(15分钟,有程序)

32、RL6_15最优状态值函数及访问次数图像分析(10分钟,有程序)

33、RL6_16可改9处及其可改建议(13分钟,有程序)

34、RL6_17改动9点及回报设置等经验介绍(11分钟,有程序)

35、RL6_18改动程序得到结果分析及经验介绍(11分钟,有程序)

36、RL6_19模型扩展之8点方向介绍(6分钟,有程序)

37、RL6_20算法扩展之8个思路介绍(7分钟,有程序)

38、RL6_21思考Q表结构等4个问题(11分钟,有程序)

39、RL6_22思考动作及更新公式等5个问题(13分钟,有程序)

40、RL6_23思考如何使用程序等问题及总结(16分钟,有程序)

第四章 SARSA算法代码程序再解悬崖行走问题(61分钟)

41、RL7_1SARSA算法更新公式及步骤分析(16分钟,有程序)

42、RL7_2悬崖行走问题及程序自学建议(6分钟,有程序)

43、RL7_3算法各个步骤与程序语句一一对应(13分钟,有程序)

44、RL7_4n程序关键语句强调及程序结果简析(13分钟,有程序)

45、RL7_5模型与算法扩展之6点再强调(7分钟,有程序)

46、RL7_6思考如何改动程序等9个问题及总结(6分钟,有程序)

第五章 Q-learning算法与SARSA算法的对比分析(74分钟)

47、RL8_1学习内容与数据保存及导入操作(7分钟,有程序)

48、RL8_2最优策略画图函数及对比结论(9分钟,有程序)

49、RL8_3最优状态值画图改进及对比结论(11分钟,有程序)

50、RL8_4访问次数数值指标对比分析(12分钟,有程序)

51、RL8_5累计回报与平均回报指标联系对比(9分钟,有程序)

52、RL8_6步数及单步均值与Q均值指标含义分析(10分钟,有程序)

53、RL8_7Q学习与SARSA算法6点定型分析(4分钟,有程序)

54、RL8_8思考图像分析与数值指标及重点总结(12分钟,有程序)

第六章 Q-learning算法自带函数程序求解网格世界优选路线(180分钟)

55、RL9_1学习内容及网格世界问题分析(9分钟,有程序)

56、RL9_2自学程序及GW各个属性详解(13分钟,有程序)

57、RL9_3障碍状态及跳跃与回报设置详解(10分钟,有程序)

58、RL9_4创建Q表用的4个函数详解(14分钟,有程序)

59、RL9_5创建qAgent和设置训练可选参数(13分钟,有程序)

60、RL9_6qAgent含义及sim图像解读(13分钟,有程序)

61、RL9_7train功能和语法及插件出错(8分钟,有程序)

62、RL9_8train过程图像及其输出结果详解(14分钟,有程序)

63、RL9_9可改7处及学习率等参数大小作用(11分钟,有程序)

64、RL9_10可改重点3处及论文用绘图保存(11分钟,有程序)

65、RL9_11子程序ZHY3生成及改编讲解(10分钟,有程序)

66、RL9_12主程序9_3运行出错及图像结果讲评(12分钟,有程序)

67、RL9_13路径优先及第一轮学习率调参(7分钟,有程序)

68、RL9_14主程序第二轮调参及最终结果详解(12分钟,有程序)

69、RL9_15思考如何使用程序等4个问题(11分钟,有程序)

70、RL9_16思考大坑等4个问题及总结强调(12分钟,有程序)

第七章 SARSA算法自带函数程序求解网格世界优选路线(27分钟)

71、RL10_1学习目的及函数差别提示(6分钟,有程序)

72、RL10_2程序5处差别及图像结果分析(11分钟,有程序)

73、RL10_3改动建议与对比分析及思考总结(10分钟,有程序)

第八章 策略迭代算法与值迭代算法步骤及区别(32分钟)

74、RL11_1动态规划及策略迭代基本思想(5分钟,有程序)

75、RL11_2策略迭代步骤及其优缺点(14分钟,有程序)

76、RL11_3值迭代算法步骤及与策略迭代区别(13分钟,有程序)

第九章 策略迭代算法代码程序求解两地租车优化调度(222分钟)

77、RL12_1学习目标及杰克租车问题已知条件说明(13分钟,有程序)

78、RL12_2两地租车问题分析及其结果先读(10分钟,有程序)

79、RL12_3自学建议及问题几个参数设置(6分钟,有程序)

80、RL12_4A点状态与回报R计算公式讲解(12分钟,有程序)

81、RL12_5回报R的计算程序分析详解(8分钟,有程序)

82、RL12_6状态转移概率矩阵P计算程序详解(14分钟,有程序)

83、RL12_7值函数与策略函数初始化及绘图解读(9分钟,有程序)

84、RL12_8策略评估及更新值函数V出现(16分钟,有程序)

85、RL12_9Bellman方程更新V值程序详解(16分钟,有程序)

86、RL12_10寻找策略改进的移动车辆动作(12分钟,有程序)

87、RL12_11策略改进程序与算法步骤详解(14分钟,有程序)

88、RL12_12结果解读及程序逻辑关系再强调(10分钟,有程序)

89、RL12_13可改程序6处及其可改建议(8分钟,有程序)

90、RL12_14改动杰克租车问题及22点改动(6分钟,有程序)

91、RL12_15改动8处及雇员移车策略绘图与数据分析(14分钟,有程序)

92、RL12_16改动12处及雇员移车行为值函数(13分钟,有程序)

93、RL12_17改动关键2处及最终结果解读(9分钟,有程序)

94、RL12_18模型扩展之8各问题讲解(6分钟,有程序)

95、RL12_19算法扩展之8点建议讲解(8分钟,有程序)

96、RL12_20思考如何使用程序等4各问题(9分钟,有程序)

97、RL12_21再思考程序4个问题及总结强调(9分钟,有程序)

第十章 值迭代算法代码程序求解迷宫逃脱问题(141分钟)

98、RL13_1学习目的及迷宫问题解读(10分钟,有程序)

99、RL13_2自学程序及矩阵转图函数(17分钟,有程序)

100、RL13_3值函数及策略函数初始化(8分钟,有程序)

101、RL13_4函数MazeSolver语法详解(16分钟,有程序)

102、RL13_5动作表示及最优行走路径画图(9分钟,有程序)

103、RL13_6可改程序10处及其可改建议(8分钟,有程序)

104、RL13_7改动增加回头动作程序处理(9分钟,有程序)

105、RL13_8改动9处及程序对比算法步骤(14分钟,有程序)

106、RL13_9模型扩展之6点思路(4分钟,有程序)

107、RL13_10算法扩展之6点想法(5分钟,有程序)

108、RL13_11思考动作如何得到等8个问题(13分钟,有程序)

109、RL13_12思考如何使用程序及展望问题(12分钟,有程序)

110、RL13_13论文与科研思路12点及总结(16分钟,有程序)

五、下载文件

附件1_必先看_强化学习及程序视频学习指导.doc

附件2_强化学习与程序视频_PPT课件.rar

附件3_强化学习全部程序m_.rar
相关推荐
客服 关于