从 SGD 到 Adam —— 深度学习优化算法概览(一) - 第2页 - 技术讨论 Technology Answers - Unity开发者联盟

FeastSC 发表于 2021-7-31 17:42

nadam的部分感觉是网上这么多资料里讲的最详细的了！感谢！

redhat9i 发表于 2021-7-31 17:51

感觉Nesterov Accelerated Gradient和最近备受关注的differentiable architecture search里的优化方法有异曲同工之妙

RedZero9 发表于 2021-7-31 17:57

请问作者，Adam的二阶动量里面有个diag，为何adam原文没有？

redhat9i 发表于 2021-7-31 18:03

能告知这个图是怎么绘制的吗，谢谢

XGundam05 发表于 2021-7-31 18:13

我是来催更的

kirin77 发表于 2021-7-31 18:22

emmm这几个月忙着开发新 optimizer 了…

RedZero9 发表于 2021-7-31 18:23

催一下给你点动力

APSchmidt 发表于 2021-7-31 18:25

小白想问下，为什么学术界不采用最新优化算法呢？是计算量方面的考虑吗？

mypro334 发表于 2021-7-31 18:31

是框架没有支持

jquave 发表于 2021-7-31 18:39

adam 中计算mt的时候是不能乘以学习率的，在更新参数θ才会乘以学习率！

页: 1 [2] 3

Unity开发者联盟's Archiver