找回密码
 立即注册
楼主: NoiseFloor

[AI随记

[复制链接]
发表于 2022-3-14 12:10 | 显示全部楼层
听+找文献。。。。
发表于 2022-3-14 12:15 | 显示全部楼层
当年最优化就有点没理解细节,现在才明白
发表于 2022-3-14 12:19 | 显示全部楼层
感觉跟最优化的内容好像
发表于 2022-3-14 12:21 | 显示全部楼层
写的很棒!在Hessian-Free Optimization中,所有的A并非都是以Ad_i的形式出现,还有Ap_i的形式,比如\alpha的分子。还是该部分,对第\mu行求解的表达式的第三个等式是不是少了d_i?
发表于 2022-3-14 12:25 | 显示全部楼层
写得挺好,另外两个向量正交是其点积等于0,不用直接用X号。ps: Lec8a 的视频地址: https://www.youtube.com/watch?v=iJ67SnPHEnU
发表于 2022-3-14 12:29 | 显示全部楼层
写的很好,一开始写loss的泰勒展开的时候有个笔误~
发表于 2022-3-14 12:30 | 显示全部楼层
写得非常好,谢谢! 但是怎么看待现在深度学习上几乎都是SGD(或者其变种)的天下呢?
发表于 2022-3-14 12:38 | 显示全部楼层
问下,神经网络的hessian矩阵怎么计算?谢谢
发表于 2022-3-14 12:41 | 显示全部楼层
所以能结合代码分析吗?
发表于 2022-3-14 12:47 | 显示全部楼层
我们可以对于[公式]的第[公式]行进行如下求解:

[公式]
即[公式]关于[公式]偏导数对向量[公式]的方向导数。
请问作者这一部分公式是怎么推导出来的?
懒得打字嘛,点击右侧快捷回复 【右侧内容,后台自定义】
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Unity开发者联盟 ( 粤ICP备20003399号 )

GMT+8, 2024-11-17 03:47 , Processed in 0.066346 second(s), 20 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表