super1 发表于 2021-7-4 07:57
这个是我引用别人的,下面有参考文章FeastSC 发表于 2021-7-4 07:57
好的 谢谢啦![爱]mastertravels77 发表于 2021-7-4 07:58
你好,请问灰狼算法和这几个优化算法有什么区别?johnsoncodehk 发表于 2021-7-4 08:08
tensorflow 里的SGD是随机梯度下降还是小批量梯度下降?闲鱼技术01 发表于 2021-7-4 08:12
小批量c0d3n4m 发表于 2021-7-4 08:15
图不错。KaaPexei 发表于 2021-7-4 08:20
【但是由于每次的下降方向为总体平均梯度,它得到的会是一个全局最优解。】这和得到全局最优解没关系吧?未必能得到全局最优rustum 发表于 2021-7-4 08:21
adadelta 牛顿近似那里,最后那个公式上面是不是得对历史梯度方向求导呀pc8888888 发表于 2021-7-4 08:25
而且感觉Adadelta和RMSprop的公式好像是一样的感觉IT圈老男孩1 发表于 2021-7-4 08:33
pytorch中的SGD是随机梯度下降还是小批量梯度下降?