一个框架看懂优化算法之异同 SGD/AdaGrad/Adam

mypro334 · 发表于 2021-10-17 11:13

有时候ＡｄM不收敛。

franciscochonge · 发表于 2021-10-17 11:20

NAG那里V_t应该是V_{t-1}吧？

mastertravels77 · 发表于 2021-10-17 11:26

嗯，笔误，这就改一下，多谢指出

zifa2003293 · 发表于 2021-10-17 11:29

谢谢！

RhinoFreak · 发表于 2021-10-17 11:34

优秀的算法工程师是不用Adam的

franciscochonge · 发表于 2021-10-17 11:39

good job！

闲鱼技术01 · 发表于 2021-10-17 11:48

SGD和Adam没有本质区别

TheLudGamer · 发表于 2021-10-17 11:49

Adam不一定都比sgd好有时候Adam无法收敛至少在相同的迭代次数sgd收敛了但Adam并没有收敛我跑densenet就遇到了这种情况您能不能分析一下这种情况？

DomDomm · 发表于 2021-10-17 11:52

有句话怎么说的呢？优秀的炼丹师师不用Adam的

Zephus · 发表于 2021-10-17 12:01

我认识的真正的人工智能大师是从来不用优化函数，他们通过心算来更新参数。问到他们渴望用优化函数么，都说当然渴望啊，我问那为什么不用，他们的回答都出奇的一致：太忙。

		自动登录	找回密码
密码			立即注册