一文看懂各种神经网络优化算法：从梯度下降到Adam方法 - 第2页 - 技术讨论 Technology Answers - Unity开发者联盟

rustum 发表于 2021-7-10 15:06

adaptive系列的都是在做preconditioning, 改变地形。只是罗列公式，也不给出原始论文，根本没有价值。

Ylisar 发表于 2021-7-10 15:12

实际上那些adaptive的方法最后效果都没有SGD效果好。

xiaozongpeng 发表于 2021-7-10 15:15

这是copy的？这是别人的译文：http://blog.csdn.net/google19890102/article/details/69942970

super1 发表于 2021-7-10 15:22

反向传播技术（Backpropagation）早就有了好吧。。。

acecase 发表于 2021-7-10 15:32

搬运工要指明出处吧

rustum 发表于 2021-7-10 15:33

区别

JamesB 发表于 2021-7-10 15:43

这种方法有时候还是被成为SGD。？是称为

APSchmidt 发表于 2021-7-10 15:52

翻译的好渣

KaaPexei 发表于 2021-7-10 15:53

小批量梯度下降。。。有点萌啊这翻译。。

七彩极 发表于 2021-7-10 15:54

2006年引入的反向传播技术。。。

页: 1 [2] 3

Unity开发者联盟's Archiver