优化算法总结

DomDomm · 发表于 2021-7-4 07:08

1 优化算法分类

2 为什么梯度下降可以减少目标函数值

大多数深度学习算法涉及某种形式的优化

导数 f′(x) 代表 f(x) 在点 x 处的斜率

我们知道对于足够小的 ε 来说，f(x εsign(f′(x))) 是比 f(x) 小的

= f(x)-εf′(x)*sign(f′(x) 恒为负，sign x>=0,y=1, x<0, y=-1

负梯度方向减少函数值

使 f 下降得最快的方向，min ||u||||xf(x)|| cos，这在 u 与梯度方向相反时取得最小。

在单位向量u上的方向导数是函数 f 在 u 方向的斜率

方向导数是函数 f (x + αu) 关于 α 的导数(在 α = 0 时取得)

梯度向量指向上坡，负梯度向量指向下坡。我们在负梯度方向上移动可以减小 f

x′ = x εxf(x)

3 梯度下降的用途

4 批量梯度下降的优缺点

批量梯度下降将计算整个数据集梯度，但只会进行一次更新

5 随机梯度下降的优缺点

随机梯度下降是每次迭代使用一个样本来对参数进行更新。使得训练速度加快

6 小批量梯度下降的优缺点

每次迭代选取k个样本来进行参数更新

缺点

7 如何逃离鞍点

鞍点的定义：鞍点在所有维度的
梯度是 0，但是在一些维度上是最高点，在另一些维度上是最低点

最优化问题之如何逃离(跳出)鞍点（Saddle Points）最优化问题之如何逃离(跳出)鞍点（Saddle Points）
其实应该动量法 Momentum ， NAG ， adam算法， AdaGrad、RMSprop、AdaDelta
都可以解决鞍点问题。
8 使用小批量梯度下降的问题

9 优化算法：从梯度估计修正动量法到自适应学习率

动量法：上个步骤中更新向量的分量’γ’添加到当前更新向量 V(t)=γV(t1)+η(θ)J(θ)

Nesterov梯度加速法：先根据之前的动量进行大步跳跃，然后计算梯度进行校正
V(t)=γV(t1)+η(θ)J( θγV(t1) )，然后使用θ=θV(t)来更新参数。

Adagrad：每个参数的维度上收敛速度都不相同，因此根据不同参数的收敛情况分别设置学习率，

RMSprop: 解决adagrad的问题，由累计方式变成移动平均在迭代过程中，每个参数的学习率并不是呈衰减趋势，既可以变小也可以变大

adam: 计算了每个参数的对应学习率，还计算每个参数的对应动量变化并独立存储
B1=0.9, B2=0.99, Mt类似于动量法，就是加和为1

adamw: 因为L2正则化和weight decay 在adam上不等价，Adam优化带L2正则的损失并不有效：

adamw的改进：将衰减值，放到最后的位置，使用相同的λ \lambdaλ来正则化所有的权重，完成了梯度下降与weight decay的解耦

Adam有很多的优点，但是在很多数据集上的最好效果还是用SGD with Momentum细调出来的。可见Adam的泛化性并不如SGD with Momentum
原因：大部分的模型都会有L2 regularization约束项，因此很有可能出现Adam的最终效果没有sgd的好
量子学园：一文看懂各种神经网络优化算法：从梯度下降到Adam方法
优化方法总结以及Adam存在的问题(SGD, Momentum, AdaDelta, Adam, AdamW，LazyAdam)
批量梯度下降(BGD)、随机梯度下降(SGD)以及小批量梯度下降(MBGD)的理解 - LLLiuye - 博客园

		自动登录	找回密码
密码			立即注册

优化算法总结

本帖子中包含更多资源