找回密码
 立即注册
楼主: mastertravels77

深度学习最全优化方法总结比较(SGD,Adagrad,Adadelta ...

[复制链接]
发表于 2022-5-18 18:27 | 显示全部楼层
知识都一样
发表于 2022-5-18 18:28 | 显示全部楼层
表示后面几种才听说...
发表于 2022-5-18 18:32 | 显示全部楼层
都是慢慢发展过来的,像Adamax只是Adam的变体
发表于 2022-5-18 18:35 | 显示全部楼层
搬运 An overview of gradient descent optimization algorithms
不加备注不好吧,而且原文最后还是动图
发表于 2022-5-18 18:37 | 显示全部楼层
请仔细看,并不是搬运好吗?并没有仔细阅读而臆断真的好吗?而且最后的图出处也并不是那篇文章,至于动图知乎貌似得点开才能看到
发表于 2022-5-18 18:44 | 显示全部楼层
但是你这篇没有任何reference肯定有问题啊……
发表于 2022-5-18 18:45 | 显示全部楼层
引用已更新,自己看吧。
发表于 2022-5-18 18:50 | 显示全部楼层
你 sure SGD 容易困在 saddle point? 连 GD 都不会收敛到 saddle point http://www.jmlr.org/proceedings/papers/v49/lee16.pdf
发表于 2022-5-18 18:54 | 显示全部楼层
好的,我看看这篇文章
发表于 2022-5-18 18:55 | 显示全部楼层
大致看了这篇文章,并且查了下三巨头合著的Deep Learning一文,发现说容易陷入鞍点确实有误。原文已改,谢谢指正。
懒得打字嘛,点击右侧快捷回复 【右侧内容,后台自定义】
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Unity开发者联盟 ( 粤ICP备20003399号 )

GMT+8, 2024-9-22 09:40 , Processed in 0.067614 second(s), 20 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表