深度学习最全优化方法总结比较（SGD，Adagrad，Adadelta ...

Arzie100 · 发表于 2022-5-18 18:27

知识都一样

johnsoncodehk · 发表于 2022-5-18 18:28

表示后面几种才听说...

stonstad · 发表于 2022-5-18 18:32

都是慢慢发展过来的，像Adamax只是Adam的变体

maltadirk · 发表于 2022-5-18 18:35

搬运 An overview of gradient descent optimization algorithms
不加备注不好吧，而且原文最后还是动图

KaaPexei · 发表于 2022-5-18 18:37

请仔细看，并不是搬运好吗？并没有仔细阅读而臆断真的好吗？而且最后的图出处也并不是那篇文章，至于动图知乎貌似得点开才能看到

kyuskoj · 发表于 2022-5-18 18:44

但是你这篇没有任何reference肯定有问题啊……

DomDomm · 发表于 2022-5-18 18:45

引用已更新，自己看吧。

kirin77 · 发表于 2022-5-18 18:50

你 sure SGD 容易困在 saddle point? 连 GD 都不会收敛到 saddle point http://www.jmlr.org/proceedings/papers/v49/lee16.pdf

jquave · 发表于 2022-5-18 18:54

好的，我看看这篇文章

量子计算9 · 发表于 2022-5-18 18:55

大致看了这篇文章，并且查了下三巨头合著的Deep Learning一文，发现说容易陷入鞍点确实有误。原文已改，谢谢指正。

		自动登录	找回密码
密码			立即注册