|
5.10更新
我们的论文被IJCAI录取了,分数和review都很不错,感谢大家的关心!
-----------------------------------------------
以下原答案:
媒体的确很容易引导大家的关注点。
其实在去年的那篇On the Convergence of Adam and Beyond成为了IClR best paper之后,就重新掀起了一股研究Adam的浪潮。当然,每篇文章都声称可以颠覆Adam。比较有意思的有PAdam(ICLR没中), AdaShift (ICLR2019), AdaBound(ICLR2019), NosAdam(IJCAI2019)。可能茫茫paper海中还有更多没冒出头的。
但其实可以看出那篇best paper的确是更有启发性,后面的文章无一不在这篇文章的框架下或启发下。我个人认为几乎每篇文章的想法都是比较intuitive的,无非是从AMSGrad的证明中得到了启发( NosAdam),或是从AMSGrad构造的反例中得到了启发(AdaShift, AdaBound)。
从对learning rate的效果上看,简单来说AdaShift提出的是把用g_{t-n}^2来代替g_t^2,所以其实跟AMSGrad会比较像(因为取了max,AMSGrad也可以看作某种g_t^2的shift,不过是根据那个max操作,data-dependent)。事实上,AdaShift的motivation和理论分析都是在针对AMSGrad里那个repeated function的例子,个人感觉非常artificial。
而NosAdam则和AdaBound非常像了。两个算法都用某种方法逐渐估计出了一个fixed learning rate,所以可以解读成“先Adam后SGD”,尽管这个想法早就有人实现过了(SWATS)。两篇文章都有理论证明,NosAdam里还有基于landscape的分析,对几种Adam类的算法比较都有讨论。而AdaBound则实验做得更好一点。
最后说说实际效果,从我个人的经验来看,这些Adam类算法的变体是大同小异的,他们的表现一般情况下也跟Adam差不多,尤其是是否能优化成功,以及generalization performance。有一篇ICML2018的文章(Dissecting Adam)把Adam类算法的问题归于它的sign-based direction,有理论证明和实验验证。我觉得能说明一定问题。根据贵公司在复杂人脸识别问题上的经验看,目前还是没有什么可以代替momentum的,Adam类算法根本train不动。
总结:作为research角度,这肯定是一篇有insight的文章,但实际效果和未来应用都有待观察,其他几篇Adam类文章也一样。
最后,如果感兴趣,请移步NosAdam:https://arxiv.org/abs/1805.07557 。欢迎讨论(求引用啊!作为作者,个人比较推荐Why Nostalgic一节,可能是相对来说会有一些些insight。
顺便再蹭热度为贵司打波广告:旷视研究院常年招算法实习生,希望编程能力强/数学好/有志于算法落地/需要大量计算资源做科研的同学,都可以拿简历来砸我!旷视的人和科研环境不会让你失望。email: huanghaiwen at megvii.com |
|