rustum 发表于 2021-7-10 15:06
adaptive系列的都是在做preconditioning, 改变地形。只是罗列公式,也不给出原始论文,根本没有价值。Ylisar 发表于 2021-7-10 15:12
实际上那些adaptive的方法最后效果都没有SGD效果好。xiaozongpeng 发表于 2021-7-10 15:15
这是copy的?这是别人的译文:http://blog.csdn.net/google19890102/article/details/69942970super1 发表于 2021-7-10 15:22
反向传播技术(Backpropagation)早就有了好吧。。。acecase 发表于 2021-7-10 15:32
搬运工要指明出处吧rustum 发表于 2021-7-10 15:33
区别JamesB 发表于 2021-7-10 15:43
这种方法有时候还是被成为SGD。?是称为APSchmidt 发表于 2021-7-10 15:52
翻译的好渣KaaPexei 发表于 2021-7-10 15:53
小批量梯度下降。。。有点萌啊这翻译。。七彩极 发表于 2021-7-10 15:54
2006年引入的反向传播技术。。。