找回密码
 立即注册
查看: 531|回复: 0

优化算法 - 动量法

[复制链接]
发表于 2024-8-2 09:30 | 显示全部楼层 |阅读模式
动量法

如何执行随机梯度下降,即只在嘈杂的梯度可用的情况下执行优化时会发生什么。对于嘈杂的梯度,我们在选择学习率需要非分分外谨慎。若衰减速度太快,收敛就会停滞。相反,若太宽松,我们可能无法收敛到最优解
1 - 基础

在本节中,我们将讨论更有效的优化算法,尤其是针对尝试中常见的某些类型的优化问题
泄露平均值




此中,较大的β相当于持久平均值,而较小的β相对于梯度法只是略有修正。新的梯度替换不再指定特定实例下降最陡的标的目的,而是指向过去梯度的加权平均值的标的目的。这使我们能够实现对单批量计算平均值的大部门好处,而不发生实际计算其梯度的代价
上述推理构成了“加速”梯度方式的基础,例如具有动量的梯度。在优化问题条件不佳的情况下(例如,有些标的目的的进展比其他标的目的慢得多,类似狭窄的峡谷),“加速”梯度还额外享受更有效的好处。此外,它们允许我们对随后的梯度计算平均值,以获得更不变的下降标的目的。诚然,即使是对于无噪声凸问题,加速度这方面也是动量如此起效的关键原因之一
正如人们所期望的,由于其功效,动量是深度学习及其后优化中一个深入研究的主题
条件不佳的问题




  1. %matplotlib inline
  2. import torch
  3. from d2l import torch as d2l
  4. eta = 0.4
  5. def f_2d(x1,x2):
  6.     return 0.1 * x1 ** 2 + 2 * x2 ** 2
  7. def gd_2d(x1,x2,s1,s2):
  8.     return (x1 - eta * 0.2 * x1,x2 - eta * 4 * x2,0,0)
  9. d2l.show_trace_2d(f_2d,d2l.train_2d(gd_2d))
  10. epoch 20, x1: -0.943467, x2: -0.000073
  11. C:\Users\20919\anaconda3\envs\d2l\lib\site-packages\torch\functional.py:478: UserWarning: torch.meshgrid: in an upcoming release, it will be required to pass the indexing argument. (Triggered internally at  C:\actions-runner\_work\pytorch\pytorch\builder\windows\pytorch\aten\src\ATen\native\TensorShape.cpp:2895.)
  12.   return _VF.meshgrid(tensors, **kwargs)  # type: ignore[attr-defined]
复制代码

从构造来看,x2⽅向的梯度⽐⽔平x1⽅向的梯度⼤得多,变化也快得多。因此,我们陷⼊两难:如果选择较⼩的学习率,我们会确保解不会在x2⽅向发散,但要承受在x1⽅向的迟缓收敛。相反,如果学习率较⾼,我们在x1⽅向长进展很快,但在x2⽅向将会发散。下⾯的例⼦说明了即使学习率从0.4略微提⾼到0.6,也会发⽣变化。x1⽅向上的收敛有所改善,但整体来看解的质量更差了
  1. eta = 0.6
  2. d2l.show_trace_2d(f_2d, d2l.train_2d(gd_2d))
  3. epoch 20, x1: -0.387814, x2: -1673.365109
复制代码

动量法




  1. def momentum_2d(x1,x2,v1,v2):
  2.     v1 = beta * v1 + 0.2 * x1
  3.     v2 = beta * v2 + 4 * x2
  4.     return x1 - eta * v1,x2 - eta * v2,v1,v2
  5. eta,beta = 0.6,0.5
  6. d2l.show_trace_2d(f_2d,d2l.train_2d(momentum_2d))
  7. epoch 20, x1: 0.007188, x2: 0.002553
复制代码

正如所见,尽管学习率与我们以前使用的不异,动量法仍然很好地收敛了。让我们看看当降低动量参数时会发生什么,将其减半至β=0.25会导致一条几乎没有收敛的轨迹。尽管如此,它比没有动量时解将会发散要好得多
  1. eta,beta=0.6,0.25
  2. d2l.show_trace_2d(f_2d,d2l.train_2d(momentum_2d))
  3. epoch 20, x1: -0.126340, x2: -0.186632
复制代码

请注意,我们可以将动量法与随机梯度下降,出格时小批量随机梯度下降结合起来。独一的变化是,在这种情况下,我们将梯度$g_{t,t-1}$替换为$g_t$。为了便利期间,我们在时间t=0初始化为$v_0=0$
有效样本权重




  1. d2l.set_figsize()
  2. betas = [0.95,0.9,0.6,0]
  3. for beta in betas:
  4.     x = torch.arange(40).detach().numpy()
  5.     d2l.plt.plot(x,beta ** x,label = f'beta = {beta:.2f}')
  6. d2l.plt.xlabel('time')
  7. d2l.plt.legend()
复制代码
  1. <matplotlib.legend.Legend at 0x164da1591f0>
复制代码
  ​   
2 - 实际尝试

让我们来看看动量法在尝试中是如何运作的。为此,我们需要一个更加可扩展的实现
从零开始实现

对比如小批量随机梯度下降,动量方式需要维护一组辅助变量,即速度。它与梯度以及优化问题的变量有不异的形状。不才面的实现中,我们称这些变量为states
  1. def init_momentum_states(feature_dim):
  2.     v_w = torch.zeros((feature_dim,1))
  3.     v_b = torch.zeros(1)
  4.     return (v_w,v_b)
  5. def sgd_momentum(params,states,hyperparams):
  6.     for p,v in zip(params,states):
  7.         with torch.no_grad():
  8.             v[:] = hyperparams[&#39;momentum&#39;] * v + p.grad
  9.             p[:] -= hyperparams[&#39;lr&#39;] * v
  10.         p.grad.data.zero_()
复制代码
让我们来看看它在尝试中是如何运作的
  1. def train_momentum(lr,momentum,num_epochs=2):
  2.     d2l.train_ch11(sgd_momentum,init_momentum_states(feature_dim),
  3.                   {&#39;lr&#39;:lr,&#39;momentum&#39;:momentum},data_iter,feature_dim,num_epochs)
  4. data_iter,feature_dim = d2l.get_data_ch11(batch_size=10)
  5. train_momentum(0.02,0.5)
  6. loss: 0.246, 0.006 sec/epoch
复制代码

当我们将动量超参数momentum增加到0.9时,它相当于有效样本数量增加到$\frac{1}{1-0.9}=10$。我们将学习率略微降至0.01,以确保可控
  1. train_momentum(0.01,0.9)
  2. loss: 0.242, 0.009 sec/epoch
复制代码

降低学习率进一步解救了任何非平滑优化问题的困难,将其设置为0.005会发生良好的收敛性能
  1. train_momentum(0.005,0.9)
  2. loss: 0.243, 0.006 sec/epoch
复制代码

简洁实现

由于深度学习框架中的优化求解器早已构建了动量法,设置匹配参数会发生非常类似的轨迹
3 - 理论分析




  1. lambdas = [0.1, 1, 10, 19]
  2. eta = 0.1
  3. d2l.set_figsize((6, 4))
  4. for lam in lambdas:
  5.     t = torch.arange(20).detach().numpy()
  6.     d2l.plt.plot(t, (1 - eta * lam) ** t, label=f&#39;lambda = {lam:.2f}&#39;)
  7. d2l.plt.xlabel(&#39;time&#39;)
  8. d2l.plt.legend()
复制代码
  1. <matplotlib.legend.Legend at 0x164da2e35b0>
复制代码
  ​   



4 - 小结


  • 动量法用过去梯度的平均值来替换梯度,这大大加快了收敛速度
  • 对于无噪声梯度下降和嘈杂的随机梯度下降,动量法都是可取的
  • 动量法可以防止在随机梯度下降的优化过程中停滞的问题
  • 由于对过去的数据进行了指数降权,有效梯度为$\frac{1}{1-\beta}$
  • 在凸二次问题中,可以对动量法进行明确而详细的分析
  • 动量法的实现非常简单,但它需要我们存储额外的状态向量(动量v)

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
懒得打字嘛,点击右侧快捷回复 【右侧内容,后台自定义】
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Unity开发者联盟 ( 粤ICP备20003399号 )

GMT+8, 2024-11-21 18:05 , Processed in 0.105159 second(s), 28 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表