找回密码
 立即注册
楼主: redhat9i

一个框架看懂优化算法之异同 SGD/AdaGrad/Adam

[复制链接]
发表于 2021-10-17 11:13 | 显示全部楼层
有时候AdM不收敛。
发表于 2021-10-17 11:20 | 显示全部楼层
NAG那里V_t应该是V_{t-1}吧?
发表于 2021-10-17 11:26 | 显示全部楼层
嗯,笔误,这就改一下,多谢指出
发表于 2021-10-17 11:29 | 显示全部楼层
谢谢!
发表于 2021-10-17 11:34 | 显示全部楼层
优秀的算法工程师是不用Adam的
发表于 2021-10-17 11:39 | 显示全部楼层
good job!
发表于 2021-10-17 11:48 | 显示全部楼层
SGD和Adam没有本质区别
发表于 2021-10-17 11:49 | 显示全部楼层
Adam不一定都比sgd好 有时候Adam无法收敛 至少在相同的迭代次数sgd收敛了 但Adam并没有收敛 我跑densenet就遇到了这种情况 您能不能分析一下这种情况?
发表于 2021-10-17 11:52 | 显示全部楼层
有句话怎么说的呢?优秀的炼丹师师不用Adam的
发表于 2021-10-17 12:01 | 显示全部楼层
我认识的真正的人工智能大师是从来不用优化函数,他们通过心算来更新参数。问到他们渴望用优化函数么,都说当然渴望啊,我问那为什么不用,他们的回答都出奇的一致:太忙。
懒得打字嘛,点击右侧快捷回复 【右侧内容,后台自定义】
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Unity开发者联盟 ( 粤ICP备20003399号 )

GMT+8, 2024-9-23 07:17 , Processed in 0.103811 second(s), 22 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表