那么有没有一种优化器是兼顾上面两个方面呢?答案就是Adam。 「Adam全称Adaptive Moment Estimation(自适应矩估计),是一种将自适应学习率与动量累加梯度的算法,它将梯度历史动量自适应累计和Adadelta或RMSprop结合起来的算法,在学习率方面Adam保持了上面的梯度的指数衰减加权均值」。
Adam将RMSprop和动量结合起来,但是没有基于未来变化趋势进行预测。我们在上面看到过NAG其实比单纯动量表现更好,因为它通过预测算法进行提前感知进行方向的校正。 Nadam(Nesterov-accelerated Adaptive Moment Estimation),Nesterov加速的自适应矩估计,将adam和NAG结合起来,为了将NAG添加到Adam,我们需要对动量部分进行一些改变。作者将NAG梯度更新公式变为: