从 SGD 到 Adam —— 深度学习优化算法概览(一)

FeastSC · 发表于 2021-7-31 17:42

nadam的部分感觉是网上这么多资料里讲的最详细的了！感谢！

redhat9i · 发表于 2021-7-31 17:51

感觉Nesterov Accelerated Gradient和最近备受关注的differentiable architecture search里的优化方法有异曲同工之妙

RedZero9 · 发表于 2021-7-31 17:57

请问作者，Adam的二阶动量里面有个diag，为何adam原文没有？

redhat9i · 发表于 2021-7-31 18:03

能告知这个图是怎么绘制的吗，谢谢

XGundam05 · 发表于 2021-7-31 18:13

我是来催更的

kirin77 · 发表于 2021-7-31 18:22

emmm这几个月忙着开发新 optimizer 了…

RedZero9 · 发表于 2021-7-31 18:23

催一下给你点动力

APSchmidt · 发表于 2021-7-31 18:25

小白想问下，为什么学术界不采用最新优化算法呢？是计算量方面的考虑吗？

mypro334 · 发表于 2021-7-31 18:31

是框架没有支持

jquave · 发表于 2021-7-31 18:39

adam 中计算mt的时候是不能乘以学习率的，在更新参数θ才会乘以学习率！

		自动登录	找回密码
密码			立即注册