深度学习-优化算法

franciscochonge · 发表于 2022-7-10 12:59

前言

深度学习的目标是最小化损失函数，本质上是一个优化问题；因此优化算法便是深度学习算法的学习机制。
用于深度学习的各种优化算法都是从梯度下降算法发展而来的。
梯度下降算法思想是利用链式求导法则计算损失函数值相对于神经网络中的每一个权重参数的梯度，通过沿负梯度方向更新权重参数达到降低损失函数值的效果。
梯度下降算法的伪代码如下：
def train(x,y,w,b,alpha,max_iters):

&#34;&#34;&#34;
x：训练集
y：训练集所对应的目标值
w：权重向量
b：偏置
alpha：学习率
max_iters：最大迭代次数
&#34;&#34;&#34;

dw = 0
db = 0
m = x.shape[0]

#梯度下降迭代
for i in range(max_iters):
      dw = 0
      db = 0
      #遍历训练集
      for j in range(m):
         #计算每个数据集的权重向量梯度w_grad和偏置梯度b_grad
         #将w_grad和b_grad分别累加到dw和db累加器中
      w = w - alpha * (dw / m) #更新权重向量
      b = b - alpha * (db / m) #更新偏置
return w,b<hr/>深度学习面对的实际问题是有大量局部最优解和鞍点；梯度下降算法很容易被困在局部最优解，或是停留在鞍点不能动弹；因此基于梯度下降算法的许多改进版发展起来。

局部最优解：如果目标函数f(x)在x上的值比在x邻域的值更小，且在x上的值并非目标函数在整个定义域内的最小值，则f(x)为局部最优解。
鞍点：鞍点是函数上导数为0，但不是轴上局部极值的点。

通常我们可以利用海森矩阵来判断某一点是否为局部极值点、鞍点。
当海森矩阵在梯度为0的位置上：

特征值全为负：局部最大值
特征值全为正：局部最小值
特征值有正有负：鞍点

torch.optim.SGD

伪代码：

输入：全局的学习率
输出：收敛的参数
（1）：初始化参数
（2）：当不满足停止条件时执行：
（3）：    从数据集中均匀随机选取  个样本
（4）：    计算梯度：
（5）：    计算更新： $w_{t}=w_{t-1}-\varepsilon\odot g_{t}$

参数	参数含义
params	待优化参数的iterable
lr	学习率
momentum	动量因子
weight_decay	权重衰减系数
dampening	动量抑制因子
nesterov	是否使用Nesterov动量

优点：

能避免冗余数据的影响，收敛速度加快，能够在线学习

缺点：

权值更新方差大，收敛波动大
难以解决局部最优解问题

torch.optim.ASGD

参数	参数含义
params	待优化参数的iterable
lr	学习率
lambd	衰减项
alpha	eta更新的指数
t0	指定平均化起始点
weight_decay	权重衰减系数

torch.optim.Adam

伪代码：

输入：全局的学习率  （一般设置为0.001），极小值  （一般设置为  )，一阶系数 $\gamma_{1}$ (一般设置为0.9），二阶系数 $\gamma_{2}$
输出：收敛的参数
（1）：初始化参数
（2）：当不满足停止条件时执行：
（3）：    从数据集中均匀随机选取  个样本
（4）：    计算梯度：
（5）：    计算一阶梯度偏差： $s_{t}=\gamma_{1} s_{t-1}+(1-\gamma_{1} )g_{t}$
（6）：    计算二阶梯度偏差： $r_{t}=\gamma_{2} r_{t-1}+(1-\gamma_{2} )g_{t}\odot g_{t}$
（7）：    计算一阶修正梯度： $\tilde{s_{t}}=\frac{s_{t}}{1-\gamma_{1}}$
（8）：    计算二阶修正梯度： $\tilde{r_{t}}=\frac{r_{t}}{1-\gamma_{2}}$
（9）：    计算更新： $w_{t}=w_{t-1}-\frac{\varepsilon \tilde{s_{t}}}{\delta+\sqrt{\tilde{r_{t}}}}$

参数	参数含义
params	待优化参数的iterable
lr	学习率
betas	用于计算梯度以及梯度平方的运行平均值的系数
eps	为了增加数值计算的稳定性而加到分母里的项
weight_decay	权重衰减

优点：

对内存需求小，收敛速度快，为不同的参数计算不同的自适应学习率

torch.optim.Adamax

参数	参数含义
params	待优化参数的iterable
lr	学习率
betas	用于计算梯度及梯度平方的运行平均值的系数
eps	为了增加数值计算的稳定性而加到分母里的项
weight_decay	权重衰减

优点：

在Adam优化算法的基础上为学习率设定了简单的范围

torch.optim.Adagrad

伪代码：

输入：全局的学习率  ，极小值  （一般设置为  )，累积梯度变量
输出：收敛的参数
（1）：初始化参数
（2）：当不满足停止条件时执行：
（3）：    从数据集中均匀随机选取  个样本
（4）：    计算梯度：
（5）：    计算累积梯度： $r=r+g_{t}\odot g_{t}$
（6）：    计算更新：

参数	参数含义
params	待优化参数的iterable
lr	学习率
lr_decay	学习率衰减
weight_decay	权重衰减系数

优点：

不需要对每个学习率手动调节

缺点：

容易因为梯度消失而提取结束训练

torch.optim.Adadelta

参数	参数含义
params	待优化参数的iterable
rho	用于计算平方梯度的运行平均值的系数
eps	为增加数值计算稳定性而加到分母中的项
lr	在delta被应用到参数更新之前对它缩放的系数
weight_decay	权重衰减系数

优点：

训练速度快

缺点：

容易困于局部最优解

torch.optim.Rprop

参数	参数含义
params	待优化参数的iterable
lr	学习率
etas	乘法的增加和减小因子
step_sizes	允许的一对最大和最小步长

缺点：

只适用于full-batch，应用场景小

torch.optim.RMSprop

伪代码：

输入：全局的学习率  ，极小值  （一般设置为  )，累积梯度变量
输出：收敛的参数
（1）：初始化参数
（2）：当不满足停止条件时执行：
（3）：    从数据集中均匀随机选取  个样本
（4）：    计算梯度：
（5）：    计算累积梯度： $r=\gamma r_{t-1}+(1-\gamma )g_{t}\odot g_{t}$
（6）：    计算更新：

参数	参数含义
params	待优化参数的iterable
lr	学习率
momentum	动量因子
alpha	平滑系数
eps	为增加数值计算稳定性而加到分母中的项
centered	为True时，计算中心化RMSProp，并用其方差预测值对梯度归一化
weight_decay	权重衰减系数

优点：

解决了Adagrad激进的学习率缩减问题

torch.optim.LBFGS

参数	参数含义
lr	学习率
max_iter	每一步优化的最大迭代次数
max_eval	每一步优化的最大函数评价次数
tolerance_grad	一阶最优的终止容忍度
tolerance_change	在函数值/参数变化量上的终止容忍度
history_size	更新历史的大小

优点：

收敛速度快，节省内存

		自动登录	找回密码
密码			立即注册

深度学习-优化算法

浏览过的版块