maltadirk 发表于 2022-3-14 12:10
听+找文献。。。。zifa2003293 发表于 2022-3-14 12:15
当年最优化就有点没理解细节,现在才明白pc8888888 发表于 2022-3-14 12:19
感觉跟最优化的内容好像jquave 发表于 2022-3-14 12:21
写的很棒!在Hessian-Free Optimization中,所有的A并非都是以Ad_i的形式出现,还有Ap_i的形式,比如\alpha的分子。还是该部分,对第\mu行求解的表达式的第三个等式是不是少了d_i?acecase 发表于 2022-3-14 12:25
写得挺好,另外两个向量正交是其点积等于0,不用直接用X号。ps: Lec8a 的视频地址: https://www.youtube.com/watch?v=iJ67SnPHEnUDungDaj 发表于 2022-3-14 12:29
写的很好,一开始写loss的泰勒展开的时候有个笔误~Ylisar 发表于 2022-3-14 12:30
写得非常好,谢谢! 但是怎么看待现在深度学习上几乎都是SGD(或者其变种)的天下呢?Arzie100 发表于 2022-3-14 12:38
问下,神经网络的hessian矩阵怎么计算?谢谢LiteralliJeff 发表于 2022-3-14 12:41
所以能结合代码分析吗?DomDomm 发表于 2022-3-14 12:47
我们可以对于[公式]的第[公式]行进行如下求解:[公式]
即[公式]关于[公式]偏导数对向量[公式]的方向导数。
请问作者这一部分公式是怎么推导出来的?