比如你想找一条最短的路径走到一个盆地的最底部,梯度下降法每次只从你当前所处位置选一个坡度最大的标的目的走一步,牛顿法在选择标的目的时,不仅会考虑坡度是否够大,还会考虑你走了一步之后,坡度是否会变得更大。所以,可以说牛顿法比梯度下降法看得更远一点,能更快地走到最底部。
随机梯度下降其收敛是有理论保证,具体可参见:为什么随机梯度下降方式能够收敛? - 数学
如何选择合适的学习速率?太大会阻碍收敛,太小会使得收敛过慢。 自适应调整学习速率?
您需要 登录 才可以下载或查看,没有账号?立即注册
使用道具 举报
本版积分规则 发表回复 回帖并转播 回帖后跳转到最后一页
小黑屋|手机版|Unity开发者联盟 ( 粤ICP备20003399号 )
GMT+8, 2024-12-4 00:47 , Processed in 0.143156 second(s), 27 queries .
Powered by Discuz! X3.5 Licensed
© 2001-2024 Discuz! Team.