NoiseFloor 发表于 2022-3-14 11:18

[AI随记

注:此文在机器学习方面属于入门性的文章,虽是一篇机器学习方向的随记,但其中方法,思路并非仅限于机器学习相关方向。也不要求对于机器学习相关领域有太多的基础和理解。有一定数学基础,涉及系统参数优化方法的,都可以参考之~

这两天看Coursera上面Hinton的神经网络课程,第八周有讲到一个Hessian Free的算法,可以比普通的算法更高效地收敛,鉴于Hinton课程一贯的粗犷风格,决定额外写一篇随记来详细解释这个算法的来龙去脉。
鄙人基础薄弱,智商堪忧,第一次发文,若有不明确不准确不正确之处,欢迎探讨质疑与指点
本文的主要框架和大量参考来自于Andrew Gibiansky的博客,行文风格和语言组织吸取了@曹逸君的建议。
转载请通知本人并注明出处。
(吐槽一下Coursera,讲述Hessian Free算法Lecture8a因为被标记成了Optional,直接不出现在视频列表里了,害我对着讲义PPT在Video-free的状态下啃了老半天)
-------------------------------------------------并不华丽的分割线----------------------------------------------
▍0. 序

在许多复杂系统的优化过程中,都无法或难以对其参数进行一次性地进行求解,而需要通过迭代逼近的方式来寻找最优或局部最优的参数集。
比如有一类机器学习系统可以粗略地进行如下的解释:
如果存在一系列 “条件 - 结果” 对 (比如为向量<身高,体重,性别,....>,为这个人的寿命),那么这个机器学习系统要做的是,在审阅了足够多的后,给定一个新的输入https://www.zhihu.com/equation?tex=x_%7Bnew%7D,尽可能预测出一个接近于真实https://www.zhihu.com/equation?tex=r_%7Bnew%7D值的结果https://www.zhihu.com/equation?tex=y_%7Bnew%7D

此时将系统视作一个函数 https://www.zhihu.com/equation?tex=y+%3D+F%28x%29,其中https://www.zhihu.com/equation?tex=F可能包含一系列参数https://www.zhihu.com/equation?tex=a%2Cb%2Cc....(比如 https://www.zhihu.com/equation?tex=y+%3D+a+x%5E2%2Bbx%2Bc),对于每个输入数据https://www.zhihu.com/equation?tex=x_%7B0%7D,系统给出一个预测值https://www.zhihu.com/equation?tex=y_%7B0%7D。

其实也可以视作存在https://www.zhihu.com/equation?tex=F+%3D+G%28a%2Cb%2Cc%2C...%29使得https://www.zhihu.com/equation?tex=y+%3D+G%28a%2Cb%2Cc%2C...%29%28x%29+%3D+F%28x%29,或称https://www.zhihu.com/equation?tex=y+%3D+G%28p%29%28x%29+%3D+F%28x%29,其中p为向量https://www.zhihu.com/equation?tex=%5Clangle+a%2Cb%2Cc....%5Crangle

额外的,对于已知的,我们根据系统的实际表现https://www.zhihu.com/equation?tex=%5Clangle+x%2Cy+%5Crangle设计一个函数作为代价函数,使得随着https://www.zhihu.com/equation?tex=y和的差距变大而变大。那么如果我们能够找到一组https://www.zhihu.com/equation?tex=a%2Cb%2Cc...使得c在各种下尽量小,那么这样的参数就比较合适于这样的系统。

这样我们就把系统的参数优化问题,转换成了寻找函数全局/局部最小值的问题
寻找这组参数的方法有很多,本文的目的是从最基础的梯度下降法出发,一步步推导到Hessian Free算法。
▍1. 梯度下降法(Gradient Descent)回顾

考虑代价函数,且https://www.zhihu.com/equation?tex=y+%3D+F%28x%29+%3D+G%28p%29%28x%29,当https://www.zhihu.com/equation?tex=x%2Cr已知时(即输入数据与预期输出已知,记得我们要求出的是,使得对于已知的数据对,取到尽量小的值),可以看做关于的函数。

我们知道,对于函数https://www.zhihu.com/equation?tex=C_%7Bxr%7D+%28p%29,令https://www.zhihu.com/equation?tex=p%5E%7B%28i%29%7D表示向量的第个分量,我们只要求得其在各个分量上的偏导数 https://www.zhihu.com/equation?tex=%5Cfrac%7B%5Cpartial+C_%7Bxr%7D%7D%7B%5Cpartial+p%5E%7B%28i%29%7D%7D+,即可得到其梯度:
https://www.zhihu.com/equation?tex=%5Cnabla+C_%7Bxr%7D%28p%29+%3D+%5Clangle+%5Cfrac%7B%5Cpartial+C_%7Bxr%7D%7D%7B%5Cpartial+p%5E%7B%280%29%7D%7D%2C+%5Cfrac%7B%5Cpartial+C_%7Bxr%7D%7D%7B%5Cpartial+p%5E%7B%281%29%7D%7D%2C%5Cfrac%7B%5Cpartial+C_%7Bxr%7D%7D%7B%5Cpartial+p%5E%7B%282%29%7D%7D%2C+....+%5Crangle
由于函数的梯度代表了函数值增长率最高的方向,于是我们可以认为,对于任意,在https://www.zhihu.com/equation?tex=%5Cnabla+C_%7Bxr%7D%28p%29+%5Cne+0的情况下,只要让向量沿着当前梯度https://www.zhihu.com/equation?tex=%5Cnabla+C_%7Bxr%7D%28p%29的反方向移动一小段,就可以找到新的使得https://www.zhihu.com/equation?tex=C_%7Bxr%7D%28p_%7Bi%2B1%7D%29+%3C+C_%7Bxr%7D%28p_%7Bi%7D%29。
于是我们的梯度下降算法就呼之欲出了:

[*]通过某种方式(比如随机数或启发式方法)选定一个初始向量
[*]根据已知数据集求在处的梯度https://www.zhihu.com/equation?tex=d_%7Bi%7D+%3D+%5Cnabla+C_%7Bxr%7D%28p_%7B0%7D%29
[*]通过一定方式确定一个步长(比如根据经验指定一个常数),计算https://www.zhihu.com/equation?tex=p_%7B1%7D+%3D+p_%7B0%7D+-+%5Calpha+p_%7B0%7D
[*]对于任意一步的,使用2、3的办法计算,直到达到特定条件(比如https://www.zhihu.com/equation?tex=%5Cnabla+C_%7Bxr%7D%28p_%7Bi%7D%29+%3D+0或者迭代次数超过一定阈值等)

这一方法的优势在于简单明了容易实现,但也存在许多缺点,比如:


[*]步骤<3>中的需要用一定方法确定,如果过大可能导致结果不收敛(越过极值点),过小则导致收敛需要极多的迭代次数
[*]在较为复杂的代价函数https://www.zhihu.com/equation?tex=C或者分步(mini-batch)训练中,https://www.zhihu.com/equation?tex=C_%7Bxr%7D%28p_%7Bi%7D%29的梯度方向可能在不同的迭代周期反复迂回,造成大量的迭代次数浪费
总之相对于传统的梯度下降方法,我们首当其冲要解决的问题就是:慢。
▍2. “一步到位”的牛顿法

在为实数时,考虑关于的一元二次函数的最值,我们知道,当https://www.zhihu.com/equation?tex=f%27%28p%29+%3D+2%5Calpha+p+%2B+%5Cbeta+%3D+0时https://www.zhihu.com/equation?tex=f%28p%29取到最值。也就是说如果我们的能够表示为 于的一元二次函数,那么我们可以立刻求出使得最小的https://www.zhihu.com/equation?tex=p+%3D+-+%5Cfrac%7B%5Cbeta%7D%7B2+%5Calpha%7D,简直就是一步到位!
但是现实世界并没有那么美好,多数情况下我们的会是一个复杂的多的函数,但是上面的方法可以给我们一个提示:
如果我们能够将用二次函数的形式表示出来,我们就可以通过上面的办法大踏步的前进了!
由此我们祭出将任意N阶可导函数化为N次多项式的神器:N阶泰勒展开
选定一个的情况下,我们可以根据https://www.zhihu.com/equation?tex=C_%7Bxr%7D%28p_%7B0%7D%29的二阶泰勒展开式
https://www.zhihu.com/equation?tex=C_%7Bxr%7D%28p+%2B+p_%7B0%7D%29+%5Capprox+C_%7Bxr%7D%28p_%7B0%7D%29+%2B+C_%7Bxr%7D%27%28p_%7B0%7D%29p%2BC_%7Bxr%7D%27%27%28p%29%5Cfrac%7Bp%5E2%7D%7B2%7D
得到的点https://www.zhihu.com/equation?tex=%28p+%2B+p_%7B0%7D%29上的近似值,当https://www.zhihu.com/equation?tex=%5Cfrac%7BdC_%7Bxr%7D%28p%2Bp_0%29%7D%7Bdp%7D+%3D+C_%7Bxr%7D%27%28p_0%29+%2B+C_%7Bxr%7D%27%27%28p_0%29p+%3D+0,也即https://www.zhihu.com/equation?tex=p+%3D+-%5Cfrac%7BC_%7Bxr%7D%27%28p_0%29%7D%7BC_%7Bxr%7D%27%27%28p_0%29%7D时,取得极值。

于是我们的在为实数时可以如此计算的极小值:

[*]选取开始迭代
[*]对于迭代中的每第步,根据的泰勒展开,计算https://www.zhihu.com/equation?tex=p_%7Bi%2B1%7D+%3D+p_i+-%5Cfrac%7BC_%7Bxr%7D%27%28p_i%29%7D%7BC_%7Bxr%7D%27%27%28p_i%29%7D得到下一个近似极值点。
[*]重复迭代直到满足终止条件
在这种情况下,我们可以用更少的迭代次数大踏步地前进,并且前进的方向也更趋向于函数的全局最优解(即最值而非极值点),同时也能够摆脱上面梯度下降法中确定的痛苦。
让我们将上面的算式推广到为n阶向量的情况:
首先我们引入Hessian矩阵的概念:
对于关于向量的函数,我们可以根据各分量构建二阶偏导矩阵https://www.zhihu.com/equation?tex=H%28f%29,使得,即https://www.zhihu.com/equation?tex=H%28f%29+%3D+%5Cbegin%7Bbmatrix%7D%0A+++++%5Cfrac%7B%5Cpartial%5E2+f%7D%7B%5Cpartial+x%5E%7B%280%29%7D+%5Cpartial+x%5E%7B%280%29%7D%7D+%26++%5Cfrac%7B%5Cpartial%5E2+f%7D%7B%5Cpartial+x%5E%7B%280%29%7D+%5Cpartial+x%5E%7B%281%29%7D%7D+%26++...+%26%5Cfrac%7B%5Cpartial%5E2+f%7D%7B%5Cpartial+x%5E%7B%280%29%7D+%5Cpartial+x%5E%7B%28n%29%7D%7D++%5C%5C%0A+++++%5Cfrac%7B%5Cpartial%5E2+f%7D%7B%5Cpartial+x%5E%7B%281%29%7D+%5Cpartial+x%5E%7B%280%29%7D%7D+%26++%5Cfrac%7B%5Cpartial%5E2+f%7D%7B%5Cpartial+x%5E%7B%281%29%7D+%5Cpartial+x%5E%7B%281%29%7D%7D+%26++...+%26%5Cfrac%7B%5Cpartial%5E2+f%7D%7B%5Cpartial+x%5E%7B%281%29%7D+%5Cpartial+x%5E%7B%28n%29%7D%7D++%5C%5C%0A...%26+...%26+...%26+...%5C%5C%0A+++++%5Cfrac%7B%5Cpartial%5E2+f%7D%7B%5Cpartial+x%5E%7B%28n%29%7D+%5Cpartial+x%5E%7B%280%29%7D%7D+%26++%5Cfrac%7B%5Cpartial%5E2+f%7D%7B%5Cpartial+x%5E%7B%28n%29%7D+%5Cpartial+x%5E%7B%281%29%7D%7D+%26++...+%26%5Cfrac%7B%5Cpartial%5E2+f%7D%7B%5Cpartial+x%5E%7B%28n%29%7D+%5Cpartial+x%5E%7B%28n%29%7D%7D++%5C%5C%0A%0A%5Cend%7Bbmatrix%7D则对于为向量时,上面算法中的第<2>步就变为:
计算https://www.zhihu.com/equation?tex=p_%7Bi%2B1%7D+%3D+p_i+-+%5Cfrac%7B%5Cnabla+C_%7Bxr%7D%28p_%7Bi%7D%29%7D%7BH%28C_%7Bxr%7D%29%28p_i%29%7D+%3D+pi+-+H%28C_%7Bxr%7D%28p_i%29%29%5E%7B-1%7D%5Cnabla+C_%7Bxr%7D%28p_%7Bi%7D%29

那么问题来了,我们发现Hessian矩阵逆矩阵https://www.zhihu.com/equation?tex=H%28C_%7Bxr%7D%28p_i%29%29%5E%7B-1%7D不一定是可以求解的,哪怕可以求解,对于https://www.zhihu.com/equation?tex=n维向量,其Hessian矩阵的大小是https://www.zhihu.com/equation?tex=n+%5Ctimes++n,一个生产环境中的系统动辄成千上万个参数(也就是向量的维度),每一次迭代都要重新计算一次Hessian矩阵并且求逆。。。你逗我玩呢?
不过别怕,既然难以对Hessian矩阵求逆以在每次迭代中对局部极值的近似一步到位,那么我们就给出一个折衷的算法:Conjugate Gradient - 共轭梯度法。
▍3. 共轭梯度法(Conjugate Gradient)

设某二次函数的极值点在,对于任意一点,存在连接和的向量https://www.zhihu.com/equation?tex=D_i+%3D+%5Coverrightarrow%7Bp_ip_t%7D,按照之前的牛顿法可知,我们在理论上是可以直接求得向量的,然而因为该方法在扩展到任意函数时存在上面指出的种种问题,所以难以进行实际应用。
而牛顿法难以实际应用的最根本原因,就是在推广算式里有一个的存在,这一因子在多参数时变成了对矩阵的求逆运算。那么我们是否可以绕过,想办法求得呢?
答案是肯定的,如果我们回顾梯度下降法,我们会发现,在最终收敛到极值的梯度下降中,所有迭代中移动的那一点点向量之和,一定等于,那么我们只要通过一定办法,在尽量少的移动次数下,使所有移动向量的总和为

此时我们引用一个定理:
维空间中任意向量,都可以用个线性无关向量之和表示所以如果我们能够讲分解为一组线性无关的向量,就可以在次迭代下,将维向量移动到函数的极值点。
那么问题是,如何进行分解?
就此我们引出向量共轭的概念:
对于向量https://www.zhihu.com/equation?tex=v,如果存在矩阵和向量,使得https://www.zhihu.com/equation?tex=v%5ETAu+%3D+0,那么认为这两个向量是共轭的向量共轭的意义在于哪里呢?我们知道如果存在两个向量https://www.zhihu.com/equation?tex=u%2Cv使得https://www.zhihu.com/equation?tex=u%5ET%5Ctimes+v%3D0,那么这两个向量互相正交。而向量-矩阵的乘法实际上是向量根据该矩阵进行的线性变换。所以两向量共轭的本质意义是:一个向量与另一个向量经过的线性变换结果向量成正交关系。

不难证明,如果一个维空间下存在个对同一变换矩阵共轭的向量,那么这个向量互相是线性无关的。

于是我们可以开始尝试设计我们在二次函数下求最值的迭代算法了:
考虑一个关于实数的二次函数https://www.zhihu.com/equation?tex=C_%7Bxr%7D%28p%29%3Dap%5E2+%2B+bp+%2B+c,现在我们把他推广到为维向量的形式:

https://www.zhihu.com/equation?tex=C_%7Bxr%7D%28p%29+%3D+%5Cfrac%7B1%7D%7B2%7D%5Csum_%7Bi%3D1%7D%5E%7Bn%7D+%5Csum_%7Bj%3D1%7D%5E%7Bn%7D%7BA_%7Bij%7Dp%5E%7B%28i%29%7Dp%5E%7B%28j%29%7D%7D+%2B+%5Csum_%7Bi%3D1%7D%5E%7Bn%7DB_%7Bi%7Dp%5E%7B%28i%29%7D%2BC+%3D+%5Cfrac%7B1%7D%7B2%7Dp%5ETAp+%2B+B%5ETp%2BC+

其中是一个https://www.zhihu.com/equation?tex=N%5Ctimes+N的对称矩阵,https://www.zhihu.com/equation?tex=A_%7Bij%7D代表展开式中项所对应的系数。(注意两个https://www.zhihu.com/equation?tex=%5CSigma前面的https://www.zhihu.com/equation?tex=1%2F2,是为了避免和https://www.zhihu.com/equation?tex=p%5E%7B%28j%29%7Dp%5E%7B%28i%29%7D被重复计算。
对于任意点, 我们求解https://www.zhihu.com/equation?tex=C_%7Bxr%7D%28p_i%29的梯度https://www.zhihu.com/equation?tex=g_i+%3D+%5Cnabla+C_%7Bxr%7D%28p_i%29+%3D+Ap_i+%2B+B。
设https://www.zhihu.com/equation?tex=d_i+%3D+-g_i%0A
而后我们求解关于的方程https://www.zhihu.com/equation?tex=%5Cfrac%7BdC_%7Bxr%7D%28p_i%2B%5Calpha+d_i%29%7D%7Bd%5Calpha%7D+%3D+0,使得https://www.zhihu.com/equation?tex=C_%7Bxr%7D%28p_i+%2B+%5Calpha+d_i%29取得最小值,该方程的求解过程这里就不赘述了,结果为

接下来我们将移动https://www.zhihu.com/equation?tex=%5Calpha+d_i得到https://www.zhihu.com/equation?tex=p_%7Bi%2B1%7D+%3D+p_i+%2B+%5Calpha+d_i
此时如果我们能够找到一个新的向量,使其共轭于,也即是使得在的梯度函数https://www.zhihu.com/equation?tex=Ap%2BB中变换所定义的空间中与正交,也就意味着此时点在方向上的移动不会影响到梯度空间中分量上的值,所以,在所有互相共轭的方向上移动一番之后,我们就会移动到目标最小值点。
那么如何找到呢?
首先我们可以求解https://www.zhihu.com/equation?tex=C_%7Bxr%7D%28p_%7Bi%2B1%7D%29的梯度https://www.zhihu.com/equation?tex=g_%7Bi%2B1%7D+%3D+%5Cnabla+C_%7Bxr%7D%28p_%7Bi%2B1%7D%29+%3D+Ap_%7Bi%2B1%7D+%2B+B,之后我们找到一个使得https://www.zhihu.com/equation?tex=-%28g_%7Bi%2B1%7D%29+%2B+%5Cbeta+d_i+%3D+d_%7Bi%2B1%7D,也即是找到以去除中与https://www.zhihu.com/equation?tex=d_%7Bi%7D相关的那一部分。

由前提和关于共轭,我们可以得到https://www.zhihu.com/equation?tex=d_%7Bi%2B1%7D%5ETAd_i+%3D+-%5Cnabla+C_%7Bxr%7D%28p_%7Bi%2B1%7D%29%5ETAd_i+%2B+%5Cbeta+d_i%5ETAd_i+%3D+0,于是得到。
于是我们可以得出结论,使用这种方法,在一个关于维向量的二次函数上,我们可以使用次迭代,从任意一点出发找到最值点,此算法称为共轭梯度法(Conjugate Gradient),事实上可以认为是梯度下降法和牛顿法的折衷。
由此我们可以得到一个求解任意二阶可导函数极值的算法:

[*]以一定方式(比如随机)选取作为初始点开始迭代
[*]对于迭代中的每第步,根据的泰勒展开https://www.zhihu.com/equation?tex=c_%7Bxr%7D%28p_i+%2B+p%29+%5Capprox+C_%7Bxr%7D%28p_i%29+%2B+%5Cnabla+C_%7Bxr%7D%28p_i%29%5ETp+%2B+p%5ETH%28C_%7Bxr%7D%29p,在附近的近似。
[*]使用共轭梯度法代替原来的牛顿法进行对泰勒展开式的极值进行迭代求解,次 迭代后,得到最小值点,此时虽然仍然需要求解但不再需要对其求逆
[*]重复步骤2-3直到收敛或其他指定条件。
那么我们就可以通过牛顿法的启发,在不需要额外指定学习率的情况下,进行学习了。
。。。那么。。。能再给力点么?
可以。因为我们不需要计算整个
▍4. Hessian-Free Optimization

注意上面共轭梯度法中的两个主要参数的确定公式:


我们可以看到,此处所有的都并非单独出现,而是以https://www.zhihu.com/equation?tex=Ad_i的形式出现的,由矩阵乘法的结合律知,我们可以先求出https://www.zhihu.com/equation?tex=%5Cgamma_i++%3D+Ad_i,从而https://www.zhihu.com/equation?tex=%5Calpha+%3D+-+%5Cfrac%7Bd_i%5ET%28%5Cgamma_i%2BB%29%7D%7Bd_i%5ET%5Cgamma_i%7D ,https://www.zhihu.com/equation?tex=%5Cbeta+%3D+-%5Cfrac%7B%5Cnabla+C_%7Bxr%7D%28p_%7Bi%2B1%7D%29%5ET%5Cgamma_i%7D%7Bd_i%5ET%5Cgamma_i%7D。
现在我们将代换成实际使用的矩阵,由矩阵的定义及矩阵乘法的定义,我们可以对于https://www.zhihu.com/equation?tex=y_i的第行进行如下求解:
https://www.zhihu.com/equation?tex=%5Cgamma_i%5E%7B%28u%29%7D+%3D+%28H%28C_%7Bxr%7D%29d_i%29%5E%7B%28u%29%7D+%3D+%5Csum%5EN_%7Bv%3D1%7D%7B%5Cfrac%7B%5Cpartial%5E2+C_%7Bxr%7D%7D%7B%5Cpartial+p_i%5E%7B%28u%29%7D+%5Cpartial+p_i%5E%7B%28v%29%7D%7D%7D%28p_i%29+%3D+%5Cnabla+%5Cfrac%7B%5Cpartial+C_%7Bxr%7D%7D%7B%5Cpartial+p_i%5E%7B%28u%29%7D%7D%28p_i%29d_i
即关于https://www.zhihu.com/equation?tex=p%5E%7B%28u%29%7D偏导数对向量的方向导数。
根据方向导数的定义
对函数,有https://www.zhihu.com/equation?tex=%5Cnabla_vf+%5Capprox+%5Cfrac%7Bf%28x+%2B+%5Cvarepsilon+v%29+-+f%28x%29%7D%7B%5Cvarepsilon%7D (足够小)我们可以选取一个小小的,得到新的近似算法:
https://www.zhihu.com/equation?tex=%5Cgamma_i%5E%7B%28u%29%7D+%3D+%5Cnabla+%5Cfrac%7B%5Cpartial+C_%7Bxr%7D%7D%7B%5Cpartial+p_i%5E%7B%28u%29%7D%7D%28p_i%29d_i+%5Capprox++%5Cfrac%7B%5Cfrac%7B%5Cpartial+C_%7Bxr%7D%7D%7B%5Cpartial+p_i%5E%7B%28u%29%7D%7D%28p_i+%2B+%5Cvarepsilon+d_i%29+-+%5Cfrac%7B%5Cpartial+C_%7Bxr%7D%7D%7B%5Cpartial+p_i%5E%7B%28u%29%7D%7D%28p_i%29%7D%7B%5Cvarepsilon%7D
又,因为https://www.zhihu.com/equation?tex=%5Cgamma_i+%3D+H%28C_%7Bxr%7D%29d_i可以视作由所有行向量https://www.zhihu.com/equation?tex=%5C%7B%5Cgamma_i%5E%7B%28u%29%7D%7C+u+%5Cin+%5Cmathbb%7BN%7D%2C+u+%5Cin+%5B1%2CN%5D%5C%7D组成的列向量,所以我们有:
https://www.zhihu.com/equation?tex=%5Cgamma_i+%3D+H%28C_%7Bxr%7D%29d_i+%5Capprox+%5Cfrac%7B%5Cnabla+C_%7Bxr%7D%28p_i+%2B+%5Cvarepsilon+d_i%29+-+%5Cnabla+C_%7Bxr%7D%28p_i%29%7D%7B%5Cvarepsilon%7D
Duang!我们无需真正求解矩阵,只需要确定一个,在每一步计算两次梯度即可~
▍5. 一点提醒

注意本文第三部分中最后总结出算法的第三步:
3. 使用共轭梯度法代替原来的牛顿法进行对泰勒展开式的极值进行迭代求解,次 迭代后,得到最小值点,此时虽然仍然需要求解但不再需要对其求逆我们需要注意的一件事是,这“次迭代”会在整个算法进行全局迭代的每一步进行,意味着:
如果我们的参数数量非常非常多,那么我们的每一步都会因此耗时非常非常久!
这也就意味着:
在参数数量足够多的情况下,Hessian-Free Optimize算法的效率可能低于梯度下降法!
如何解决这一问题呢?
一般来说,如果我们从一个点出发,寻找附近的极值点,该点到目标极值点的距离越远,Hessian-Free方法相对传统梯度下降法的收益越高。
所以一种更实用的优化是,指定一些策略,使得系统在一开始采用Hessian-Free方法进行几次迭代后,转而使用梯度下降法进行后续的迭代。

最后,鉴于鄙人基础薄弱,智商堪忧,又加上此文又臭又长的特性,难免有不明确不准确不正确之处,欢迎探讨质疑与指点。

BlaXuan 发表于 2022-3-14 11:27

写的太好了

pc8888888 发表于 2022-3-14 11:34

一步一步渐进,写的不错!辛苦

stonstad 发表于 2022-3-14 11:36

好好研究研究

mypro334 发表于 2022-3-14 11:41

大神能问一下 这个没有字幕你是纯靠听的吗 本人弱鸡。。。

DungDaj 发表于 2022-3-14 11:44

我也在学hinton的课程,这部分完全天书。。跟着你这个介绍到3节共轭的地方又开始迷失了。。

xiangtingsl 发表于 2022-3-14 11:44

写得好棒!期待后续大作!可以转到开发者头条吗?: )

Ylisar 发表于 2022-3-14 11:47

共轭梯度每次都在与前几次正交的维度上走足,所以到达最小值要经历的步数和模拟函数的维度有关?

xiangtingsl 发表于 2022-3-14 11:56

好呀~~注明出处就好~~~ :P

Zephus 发表于 2022-3-14 12:05

对的
页: [1] 2 3
查看完整版本: [AI随记