Arzie100
发表于 2022-5-18 18:27
知识都一样
johnsoncodehk
发表于 2022-5-18 18:28
表示后面几种才听说...
stonstad
发表于 2022-5-18 18:32
都是慢慢发展过来的,像Adamax只是Adam的变体
maltadirk
发表于 2022-5-18 18:35
搬运 An overview of gradient descent optimization algorithms
不加备注不好吧,而且原文最后还是动图
KaaPexei
发表于 2022-5-18 18:37
请仔细看,并不是搬运好吗?并没有仔细阅读而臆断真的好吗?而且最后的图出处也并不是那篇文章,至于动图知乎貌似得点开才能看到
kyuskoj
发表于 2022-5-18 18:44
但是你这篇没有任何reference肯定有问题啊……
DomDomm
发表于 2022-5-18 18:45
引用已更新,自己看吧。
kirin77
发表于 2022-5-18 18:50
你 sure SGD 容易困在 saddle point? 连 GD 都不会收敛到 saddle point http://www.jmlr.org/proceedings/papers/v49/lee16.pdf
jquave
发表于 2022-5-18 18:54
好的,我看看这篇文章
量子计算9
发表于 2022-5-18 18:55
大致看了这篇文章,并且查了下三巨头合著的Deep Learning一文,发现说容易陷入鞍点确实有误。原文已改,谢谢指正。