rustum 发表于 2021-7-10 15:06

adaptive系列的都是在做preconditioning, 改变地形。只是罗列公式,也不给出原始论文,根本没有价值。

Ylisar 发表于 2021-7-10 15:12

实际上那些adaptive的方法最后效果都没有SGD效果好。

xiaozongpeng 发表于 2021-7-10 15:15

这是copy的?这是别人的译文:http://blog.csdn.net/google19890102/article/details/69942970

super1 发表于 2021-7-10 15:22

反向传播技术(Backpropagation)早就有了好吧。。。

acecase 发表于 2021-7-10 15:32

搬运工要指明出处吧

rustum 发表于 2021-7-10 15:33

区别

JamesB 发表于 2021-7-10 15:43

这种方法有时候还是被成为SGD。?是称为

APSchmidt 发表于 2021-7-10 15:52

翻译的好渣

KaaPexei 发表于 2021-7-10 15:53

小批量梯度下降。。。有点萌啊这翻译。。

七彩极 发表于 2021-7-10 15:54

2006年引入的反向传播技术。。。
页: 1 [2] 3
查看完整版本: 一文看懂各种神经网络优化算法:从梯度下降到Adam方法