深度学习最全优化方法总结比较（SGD，Adagrad，Adadelta ... - 第2页 - 技术讨论 Technology Answers - Unity开发者联盟

Arzie100 发表于 2022-5-18 18:27

知识都一样

johnsoncodehk 发表于 2022-5-18 18:28

表示后面几种才听说...

stonstad 发表于 2022-5-18 18:32

都是慢慢发展过来的，像Adamax只是Adam的变体

maltadirk 发表于 2022-5-18 18:35

搬运 An overview of gradient descent optimization algorithms
不加备注不好吧，而且原文最后还是动图

KaaPexei 发表于 2022-5-18 18:37

请仔细看，并不是搬运好吗？并没有仔细阅读而臆断真的好吗？而且最后的图出处也并不是那篇文章，至于动图知乎貌似得点开才能看到

kyuskoj 发表于 2022-5-18 18:44

但是你这篇没有任何reference肯定有问题啊……

DomDomm 发表于 2022-5-18 18:45

引用已更新，自己看吧。

kirin77 发表于 2022-5-18 18:50

你 sure SGD 容易困在 saddle point? 连 GD 都不会收敛到 saddle point http://www.jmlr.org/proceedings/papers/v49/lee16.pdf

jquave 发表于 2022-5-18 18:54

好的，我看看这篇文章

量子计算9 发表于 2022-5-18 18:55

大致看了这篇文章，并且查了下三巨头合著的Deep Learning一文，发现说容易陷入鞍点确实有误。原文已改，谢谢指正。

页: 1 [2] 3

Unity开发者联盟's Archiver