找回密码
 立即注册
楼主: 闲鱼技术01

从 SGD 到 Adam —— 深度学习优化算法概览(一)

[复制链接]
发表于 2021-7-31 17:42 | 显示全部楼层
nadam的部分感觉是网上这么多资料里讲的最详细的了!感谢!
发表于 2021-7-31 17:51 | 显示全部楼层
感觉Nesterov Accelerated Gradient和最近备受关注的differentiable architecture search里的优化方法有异曲同工之妙
发表于 2021-7-31 17:57 | 显示全部楼层
请问作者,Adam的二阶动量里面有个diag,为何adam原文没有?
发表于 2021-7-31 18:03 | 显示全部楼层
能告知这个图是怎么绘制的吗,谢谢
发表于 2021-7-31 18:13 | 显示全部楼层
我是来催更的
发表于 2021-7-31 18:22 | 显示全部楼层
emmm这几个月忙着开发新 optimizer 了…
发表于 2021-7-31 18:23 | 显示全部楼层
催一下给你点动力
发表于 2021-7-31 18:25 | 显示全部楼层
小白想问下,为什么学术界不采用最新优化算法呢?是计算量方面的考虑吗?
发表于 2021-7-31 18:31 | 显示全部楼层
是框架没有支持
发表于 2021-7-31 18:39 | 显示全部楼层
adam 中计算mt的时候是不能乘以学习率的,在更新参数θ才会乘以学习率!
懒得打字嘛,点击右侧快捷回复 【右侧内容,后台自定义】
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Unity开发者联盟 ( 粤ICP备20003399号 )

GMT+8, 2024-11-15 13:43 , Processed in 0.066638 second(s), 20 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表