FeastSC 发表于 2021-7-31 17:42
nadam的部分感觉是网上这么多资料里讲的最详细的了!感谢!redhat9i 发表于 2021-7-31 17:51
感觉Nesterov Accelerated Gradient和最近备受关注的differentiable architecture search里的优化方法有异曲同工之妙RedZero9 发表于 2021-7-31 17:57
请问作者,Adam的二阶动量里面有个diag,为何adam原文没有?redhat9i 发表于 2021-7-31 18:03
能告知这个图是怎么绘制的吗,谢谢XGundam05 发表于 2021-7-31 18:13
我是来催更的kirin77 发表于 2021-7-31 18:22
emmm这几个月忙着开发新 optimizer 了…RedZero9 发表于 2021-7-31 18:23
催一下给你点动力APSchmidt 发表于 2021-7-31 18:25
小白想问下,为什么学术界不采用最新优化算法呢?是计算量方面的考虑吗?mypro334 发表于 2021-7-31 18:31
是框架没有支持jquave 发表于 2021-7-31 18:39
adam 中计算mt的时候是不能乘以学习率的,在更新参数θ才会乘以学习率!