RedZero9 发表于 2021-12-3 14:32

部分情况会好吧

Baste 发表于 2021-12-3 14:39

非常有帮助!本质上就是让参数更新的方向别按照原来梯度的g的方向走,即不要沿着垂直等高线的方向走,而是直指极值的方向。是这样吧?

Baste 发表于 2021-12-3 14:46

因为调整了不同维度的学习率,稀疏数据0较多,频率高,梯度平方和大,学习率会调整变小
页: 1 [2]
查看完整版本: Deep Learning 最优化方法之AdaGrad