8-7 最近实在是没法完成每天的读书笔记,加上上本书又到了充满细节没有直观的部分,完全读不下去。。从今天开始尽量重新建立工作的习惯,所以今天换了一本书:Geometric Modeling in Probability and Statistics。重点在于尽力专注而不是效率。看了第一章,先回顾了一下概率论,然后从微分几何的角度定义Fisher information和它的Levi–Civita connection (Christoffel symbols)。Fisher information的定义方法是 其实学到这个定义很多次了,每次都没感觉。这次可能从例子入手看看,比如exponential family 的Fisher information是 ,所以和 的Hessian有关系,让我想起了另一本书curvature和support函数的Hessian有关,不知道有没有什么联系。因为如果把这些Hessian看成change of variable的积分里乘的那一项的话,那么change of variable就是对应函数的gradient,其实应该是有点意义的,留个坑之后再填。另外是Christoffel symbols of first kind定义成 . Exponential family 的Christoffel symbols 是 。在定义了一些其他的connection之后,最后Jeffrey’s Prior定义成 normalize后的probability,这边 对于exp family来说是log partition fn的Hessian的det,其实让我想起optimal transport的公式,不过distribution做change of variable都是需要这一项的,就是积分换元里乘的那一项,所以依然不知道有什么意义,可能与opt transport关系不大。。
8-18 最近的生活非常兵荒马乱,但是就是在混乱的时候才需要用纪律性约束自己。最近根据老板的任务看了Paul Dupuis的两篇文章,Formulation and properties of a divergence used to compare probability measures without absolute continuity 和 (f,Gamma)-divergences: interpolation between f-divergences and integral probability metrics。第一篇把KL的variational formula扩展了一下,定义了 和 ,然后导出了一个inf-conv的等式: 。其实这个等式的证明思路就是惯用的凸分析的思路,意义是把KL和Wasserstein-type distance联系起来,重点就是通过改变函数的空间 来改变定义,通过Wasserstein-type的variational formula的独特形式(线性)来和 空间indicator函数的dual取得联系。第二篇就更反直觉一点,是把f-divergence的variational form扩展了。原来的形式是 ,以及 。这里 的定义是 。在KL的特殊情况下, 是cumulant generating function,这两个式子分别是Donsker-Varadhan variational formula 和 the Gibbs variational formula,也就是KL和cumulant generating function的对偶关系。和上一篇paper相似的是,把函数空间变换成 ,然后得到inf-conv的式子 。这样就把f-div和W-dist取得联系,然后分析optimizer、asymptotic behavior等等。之前看到过Dupuis类似的结论,总是百思不得其解 的定义里为什么用v的shift,这个想法怎么得到的。看了这个文章发现是因为如果把f变成 后, 的值不变,所以它的dual应该也对这种变换保持不变,因此,把 换成 也就是 的定义。这种stat的对偶关系之前就让我很着迷,但即使看了这两个paper之后,依然觉得technical的部分大于直觉的部分。
8-21 最近真的很艰难,日更完全是奢望。看了两篇Amari的文章,分别是“Information Geometry and Its Applications: Convex Function and Dually Flat Manifold” 和 “Information geometry“。话说follow了一下他最近在做什么,都是神经网络相关的文章。从他的文章中获得了一些DG定义背后的意义。比如说affine connection是为了在两点的tangent spaces中间做一个linear mapping(曲线不同点的tangent space并不平行,所以如果要比较不同点的tangent vector的话,需要这样一个map,叫parallel transport),Levi-Civita connection就是唯一的保存metric不变的affine connection(就是如果X1和X2 map 到 Y1和Y2,那么 )。有了connection之后,就可以定义covariant derivative并列出geodesic(切向不变)的微分方程。如果是Levi-Civita connection,不仅切向不变,而且geodesic是两点之间长度最短的曲线。接着可以定义curvature(这里的curvature和convex geometry的curvature等价嘛?)。
除了这些DG的基本intuition之外,更重要的是information geometry的脉络。主要是parametrized prob space(exp和mixed)的primal和dual的坐标表示。之前理解凸分析算法的时候,已经觉得primal-dual坐标变换很神奇(一些算法在dual空间上看很有意思),这里不仅仅是它俩的坐标变换,而是加上了manifold本身变成了一个三角的关系,manifold是主要对象,坐标仅仅是坐标。其实有参数的所有对象都可以这样搞,把参数(光滑的话)看成坐标系,用DG的思路研究抽象空间上的tangent space、curve、metric等等,研究和坐标无关的不变量,这些思路做物理的应该很熟。。另外,又让我想到prob density的坐标变换公式,只不过这里是对参数坐标变换,而density的公式是对prob space坐标变换。回正题,有趣的点在于,dually flat Riemannian manifold和dual convex potential functions有对应关系,potential fn可以定义dually flat R-mnfd不奇怪,但是dually flat R-mnfd一定会对应potential fn还挺神奇的。接下来就是耳熟能详的metric、divergence、Legendre transform等等的关系。其中他指出,coordinate可以混用,i.e., 也是一个坐标,这一点和物理的思路也很像(这也是为什么我一直学不好热力学那块的物理的原因,因为坐标变换对物理学家很自然。。),这种坐标混用的思路不知道能不能用来设计算法。另外,paper里给出了Fisher information的一个意义:它是唯一的R-metric which is invariant under x transform and transform。中间的垂直相关的几个定理暂时没什么感觉。最后给出了application,想看的方向包括和EM的关系,以及和barrier fn的关系等,下次再看。
8-28 打脸,人生有(应用)数学真是太好了。这两天接着读Amari的文章,然后才发现这位不是最近赶热点开始做NN,而是在我出生前就做过NN了。。。又想起之前和朋友的聊天,他说觉得沮丧,因为NN现在做的idea们基本上个世纪就有了。言归正传,这次的paper是EM相关,“information geometry of the EM and em algorithms for neural networks",94年的paper,老paper有很多值得读的。这篇从abstract就一直在tease,让人十分想读,关于EM和em、关于NN的关系、关于KL相关的优化、关于mixture of experts。不过统计方面的想法,我到现在都没什么头绪,主要是没有掌握住有信息缺失的时候如何处理的这种建模的思路吧。这篇文章的假设是,有一个underlying prob manifold,在这个里面有两个submnfd,M和D。M指的是我们用的model的集合,D指的是可以表示data的那些model的集合。这两个集合并不一定有交集,即data不一定可以用我们的model表示。问题是,如何找到适合的模型和隐藏变量,适合的模型是和数据相近的模型,隐藏变量是和模型相近的数据变量,所以就是寻找M和D之间相近的地方。em很好理解,就是 【为什么不反过来?把KL换成其他div会变成什么算法?】,算法就是交替优化Q和P。EM就复杂一些,统计一些,E(expectation)是算隐藏变量的方法,就是用conditional expectation;M就是用隐藏变量+数据算mle求P。文中把EM算法的E写成等价形式 ,这里的函数F是从(data,隐藏变量)到(data,conditional exp)的函数,这地方挺奇怪的。然后M步和m步是一样的。所以EM和em的区别就在于E和e步里面的 。上次说优化和ODE的联系是一个理解离散格式的方式,那么这个文章就是用优化和一些统计estimator来理解算法。这种联系也很重要,但是更加不明,唯一有印象的文章是说Bayesian estimator是某个形式的优化问题的解。另外这个文章提了一句,传统NN可以看出stochastic NN的expectation,这个也很有意思,现在没怎么见有人这样做,也许是stochastic NN很难计算,所以不知道这种联系有什么用。但是更加狂放一些,stochastic NN的其他Bayesian estimator会给出什么?只是可能很难算。。
8-29 今天继续EM和variational form的关系。首先稍微了解了一下EM算法,更新的EM算法和昨天看的并不一样,E这一步变成了对likelihood做conditional expectation,而不是对parameter做conditional expectation,这两种应该不等价,前一种有点类似Bayesian estimator的思路,是用distribution来代替parameter estimation。Amari的书里说,这种新版的EM算法和em等价,改天研究下为什么。为什么换了一下E step就可以吧昨天说的 给去掉,说起来 到底代表什么也没搞懂,其实一头雾水。。。新的EM每一步可以写成一个优化问题: ,x是data,h是hidden variable, 是model里的参数。这个角度看,是max entropy的fixed point方法。但是这种EM和em的关联就很神奇,能把一个非凸优化变成min-min problem(em角度),这个min-min对各自的变量是凸的(jointly凸吗?),这种转化是个很好的证明收敛性的思路,但是很难想到,有套路吗?
这个套路让我想起之前烂尾的一个东西,那个东西的证明思路也是这样。于是又把那时候的两个文章翻出来看了看,即“Variational Characterizations of Local Entropy and Heat Regularization in Deep Learning“ 和 “Deep relaxation: PDEs for optimizing deep neural networks"。这两个文章都很神奇,都有一种玄而又玄很fancy的感觉,但是细想又一头雾水,其实这下面大概率有值得挖的东西,只不过时机还没到。第一篇把 f 的优化问题relax 成两种形式,log partition fn 和 convolution with heat kernel,而relax过的函数有variational form。前一个函数的variational form是KL的对偶关系给出的,后一个函数是一个很神奇的对偶,不知道怎么凑出来的。和EM的关联是,前一个函数的coordinate descent其实和EM很像,但是这个的model里面并没有data和hidden variable之类的。那么这种相似点从何而来?也许不需要从统计的模型出发,而是从纯优化的角度,给出一个可以结合这两种问题的框架,不过需要认真看一下证明就是了。第二个函数的算法的第二步和第一个算法的区别仅仅是在KL的两个变量换了位置,这也很神奇。第二篇文章,Osher的,比较偏重Gibbs distribution、PDE和SDE多过优化的思路和statistics,那个再看一遍也觉得和现在的主线关联不大,其实是发散很广的枝干,从长计议。
这里的重点在于,优化算法、优化问题的各种等价形式(以variational form得到)。这些不同paper里的min-min问题都有相似的形式:一项+KL,其实Paul的variational form也是这个形式,或许可以从这个形式下手呢?明天继续。