FeastSC 发表于 2021-7-31 17:42

nadam的部分感觉是网上这么多资料里讲的最详细的了!感谢!

redhat9i 发表于 2021-7-31 17:51

感觉Nesterov Accelerated Gradient和最近备受关注的differentiable architecture search里的优化方法有异曲同工之妙

RedZero9 发表于 2021-7-31 17:57

请问作者,Adam的二阶动量里面有个diag,为何adam原文没有?

redhat9i 发表于 2021-7-31 18:03

能告知这个图是怎么绘制的吗,谢谢

XGundam05 发表于 2021-7-31 18:13

我是来催更的

kirin77 发表于 2021-7-31 18:22

emmm这几个月忙着开发新 optimizer 了…

RedZero9 发表于 2021-7-31 18:23

催一下给你点动力

APSchmidt 发表于 2021-7-31 18:25

小白想问下,为什么学术界不采用最新优化算法呢?是计算量方面的考虑吗?

mypro334 发表于 2021-7-31 18:31

是框架没有支持

jquave 发表于 2021-7-31 18:39

adam 中计算mt的时候是不能乘以学习率的,在更新参数θ才会乘以学习率!
页: 1 [2] 3
查看完整版本: 从 SGD 到 Adam —— 深度学习优化算法概览(一)