深度学习中的优化算法
深度学习中的优化算法 请问Adam有比较么?优化算法的差异有理论结果么? 这篇文章还没有研究那么细致,Adam 或者其余算法后续会持续调研一下。 研究这些可带劲了,能否用数学模式,计算基因DNA这些生命密码。 这个估计要问生物学的同学了~~~ 请问AdaGrad中学习率的分母中,除了平滑项之后,根号内的内容,到底是之前各个时刻坐标的平方和呢,还是之前各个时刻梯度的平方和?如果这里所举例子鞍点不是在(0,0),感觉两者差距是很大的 从原始的算法描述来看,根号内的内容应该就是历史上所有梯度的平方求和(平方和求和按照分量来分别计算)。 有 No Free Lunch 定理 你好,很好的文章,看的时候发现多元函数Taylor展开公式的写法容易让人误解,H(x)(x-x0).... 又去看了一眼,好像是会让人产生误解,不过也没想到更好的写法。一般学过微积分或者数学分析的人,都明白这个在说的是什么。
页:
[1]
2