马克社区,马克吐温社区,马克java社区,人工智能之卷积神经网络,人工智能,什么是梯度下降法与delta法则,神经网络,马克-to-win,青少年Java,教程,入门,零基础,小白,菜鸟,初学者,自学者

什么是梯度下降法与delta法则

马克-to-win @ 马克java社区：防盗版实名手机尾号：73203。梯度下降法就是沿梯度下降的方向求解函数（误差）极小值。delta法则是使用梯度下降法来找到最佳权向量。拿数字识别这个案例为例，训练模型的过程通常是这样的。输入为1万张图片，也就是1万个样本，我们定义为D，是训练样例集合，输出为相对应的1万个数字。马克-to-win @ 马克java社区：这就是1万个目标输出(Target），每一个目标输出我们定义为：td ，是训练样例d的目标输出。我们的模型训练的目的是想找出，此人工神经网络模型的参数，比如权向量w 等。要注意，目标输出td是已知的（非变量，比如5这张图，目标输出就是5这个数字），样本也是已知的。马克-to-win @ 马克java社区：参数是未知的。还有什么是未知的?这就需要从训练的过程入手了。训练过程，通常开始时，所有的权向量w都从一个很小的值开始，比如零，这时有一个实际输出（od是对训练样例d的实际输出）。目标输出和实际输出的差距叫做误差。因为一共有1万个样本，为了消除正负误差相抵，所以我们定义所有目标输出和实际输出的误差平方和的一半为E。（因为平方的求导会出现2，所以这就是取一半的原因，这样2×(1/2)会使系数消失。）

公式1-1

在上式中：

拿我们这章第一个例子，单个神经元的房子预测神经网络模型为例，不难理解：Od=x0*w0+x1*w1+…xn*wn+b，结合前面的分析可知，x0， x1，。。。。。xn都是一个个的样本值，是已知的。td也是已知的。这样看E是w0,w1,....wn和b的函数。我们的目标就是找到一组权向量（w0,w1,....wn和b）能使E最小化。拿wi来说，我们可以画一条函数曲线：

马克-to-win @ 马克java社区：防盗版实名手机尾号：73203。公式1-2：之所以是负号，是因为图中斜率肯定为负值（因为是与x轴正向的夹角）。根据数学中梯度下降法。（delta wi为正，E越来越小）所以我们有下面一个业内著名的式子：

公式1-2

伊塔就是著名的学习率，代表纵向（E方向）的变化幅度。（keras optimizers 默认学习率是0.01）

式子中：td已知，xid已知，od是输出，是可以计算出来的
代进公式1-3：

公式1-4

公式1-4就是大名鼎鼎的delta rule（规则）
以上的式子推导是根据批量学习。但理论和实践中，我们也用逐步学习法（也就是不用通过所有样本点的求和，简言之，求和号直接省略）

在前面上一段，我们提到：所有的权向量w都从一个很小的值开始，比如零，通过变化，最后让E达到最小。

公式1-5
拿我们这章第一个例子，单个神经元的房子预测神经网络模型为例，Od=x0*w0+x1*w1+…xi*wi+.....xn*wn+b
来帮助理解以上的两个式子：公式1-4和公式1-5。根据此以上两个式子：我们的神经网络源代码自己就能写出来。所有的权向量w都从一个很小的值开始，比如零。td，od， xid和伊塔的值都有，delta wi就能算出来。马克-to-win @ 马克java社区：新一轮wi就能求出来。接着再循环往复，直到最后计算出td和od一样，这时，delta wi就恒定为零了，Wi也就都求出来，这不就是我们训练的目的吗？全部到此就结束了，如果实在td和od的差距始终不能为0，那循环到一定轮数也就结束了。