在这里可能会问:直接求函数的导数/梯度,然后令导数/梯度为0,解方程,问题不就解决了吗?
变型 梯度下降法有大量的变型,它们都只利用之前迭代时的梯度信息来构造每次的更新值,下面我们分别进行介绍。 改进的方向主要就是学习率的改进和梯度的计算方法的改进,对于学习率的改进主要是为了避免人工设定学习率,对于梯度计算方法的改进主要是累积之前的梯度信息,类似于保持行走时的惯性,目的是避免来回震荡,加快收敛速度。
您需要 登录 才可以下载或查看,没有账号?立即注册
使用道具 举报
本版积分规则 发表回复 回帖并转播 回帖后跳转到最后一页
小黑屋|手机版|Unity开发者联盟 ( 粤ICP备20003399号 )
GMT+8, 2024-11-16 06:46 , Processed in 0.092502 second(s), 26 queries .
Powered by Discuz! X3.5 Licensed
© 2001-2024 Discuz! Team.