深度学习中的优化算法

pc8888888 发表于 2021-8-25 07:15

stonstad 发表于 2021-8-25 07:22

请问Adam有比较么？优化算法的差异有理论结果么？

maltadirk 发表于 2021-8-25 07:23

这篇文章还没有研究那么细致，Adam 或者其余算法后续会持续调研一下。

Ylisar 发表于 2021-8-25 07:32

研究这些可带劲了，能否用数学模式，计算基因DNA这些生命密码。

RedZero9 发表于 2021-8-25 07:35

这个估计要问生物学的同学了~~~

ainatipen 发表于 2021-8-25 07:35

请问AdaGrad中学习率的分母中，除了平滑项之后，根号内的内容，到底是之前各个时刻坐标的平方和呢，还是之前各个时刻梯度的平方和？如果这里所举例子鞍点不是在(0,0)，感觉两者差距是很大的

Arzie100 发表于 2021-8-25 07:43

从原始的算法描述来看，根号内的内容应该就是历史上所有梯度的平方求和（平方和求和按照分量来分别计算）。

JoshWindsor 发表于 2021-8-25 07:44

有 No Free Lunch 定理

Zephus 发表于 2021-8-25 07:51

你好，很好的文章，看的时候发现多元函数Taylor展开公式的写法容易让人误解，H(x)(x-x0)....

NoiseFloor 发表于 2021-8-25 07:55

又去看了一眼，好像是会让人产生误解，不过也没想到更好的写法。一般学过微积分或者数学分析的人，都明白这个在说的是什么。

页: [1] 2

Unity开发者联盟's Archiver