Arzie100 发表于 2022-5-18 18:27

知识都一样

johnsoncodehk 发表于 2022-5-18 18:28

表示后面几种才听说...

stonstad 发表于 2022-5-18 18:32

都是慢慢发展过来的,像Adamax只是Adam的变体

maltadirk 发表于 2022-5-18 18:35

搬运 An overview of gradient descent optimization algorithms
不加备注不好吧,而且原文最后还是动图

KaaPexei 发表于 2022-5-18 18:37

请仔细看,并不是搬运好吗?并没有仔细阅读而臆断真的好吗?而且最后的图出处也并不是那篇文章,至于动图知乎貌似得点开才能看到

kyuskoj 发表于 2022-5-18 18:44

但是你这篇没有任何reference肯定有问题啊……

DomDomm 发表于 2022-5-18 18:45

引用已更新,自己看吧。

kirin77 发表于 2022-5-18 18:50

你 sure SGD 容易困在 saddle point? 连 GD 都不会收敛到 saddle point http://www.jmlr.org/proceedings/papers/v49/lee16.pdf

jquave 发表于 2022-5-18 18:54

好的,我看看这篇文章

量子计算9 发表于 2022-5-18 18:55

大致看了这篇文章,并且查了下三巨头合著的Deep Learning一文,发现说容易陷入鞍点确实有误。原文已改,谢谢指正。
页: 1 [2] 3
查看完整版本: 深度学习最全优化方法总结比较(SGD,Adagrad,Adadelta ...