变分自编码器(VAE)是当下最流行的生成模型系列之一,它可以被用来刻画数据的分布。经典的期望最大化(EM)算法旨在学习具有隐变量的模型。本质上,VAE 和 EM 都会迭代式地优化证据下界(ELBO),从而最大化观测数据的似然。本文旨在为 VAE 和 EM 提供一种统一的视角,让具有机器学习应用经验但缺乏统计学背景的读者最快地理解 EM 和 VAE。
论文链接(已收录于AI open):https://www.aminer.cn/pub/6180f4ee6750f8536d09ba5b
<hr/>引言
最大值。然而,上述要求对于复杂模型是十分苛刻的。
<hr/>变分 EM、MCEM、 Generalized EM
若
难以计算,则无法估计后验概率
。变分 EM 是一种替代方案,它通过一个简单的分布替换后验概率。例如,在平均场方法中,每个维度上的分量都是独立的,即:
若
无法被简化为解析形式,我们可以进行蒙特卡洛近似,即 MCEM 算法:
其中,
采样自
当我们无法直接得到
的最大值时,Generalized EM 会转而执行一个能够提升 ELBO 的步骤(例如,梯度步)。
<hr/>变分自编码器
假设某个模型满足以下要求:
其中,Decoder 编码器为神经网络。那么估计这种模型的参数是图 1 中最困难的情况。由于神经网络的存在,我们会遇到第五章中的第三种情况。如果我们将变分 EM、MCEM、Generalized EM 结合起来,就可以得到 VAE 模型。实际上,VAE 可以看做对 EM 算法的扩展。
图 2:变分自编码器
在训练编码器和解码器的过程中,我们从后验概率
中采样隐变量 z。然而,在生成时,我们从先验概率
中采样隐变量 z。 VAE 与变分 EM 的联系
VAE 中的 是一种各向同性高斯分布,我们可以通过另一个神经网络编码器来生成均值和方差:
其中,μ 和 σ 为向量。在传统的变分 EM 算法中,我们需要找到最优的
来为每个观测到的数据点 x 最大化
。VAE 使用了一种平摊变分推断(AVI)技巧,其中
为编码器的输出,不同的数据点
共享参数。AVI 技巧为了训练效率牺牲了部分的空间。 VAE 与 MCEM 和 Generalized EM 的关系
Generalized EM 认为我们无需在 E 步或 M 步中最大化 ELBO。我们可以通过 SGD 来优化和,尽管这样相较于传统的 EM 算法需要更多步运算。根据公式(4),我们有:
接着,我们通过梯度法优化
请注意,根据模型的定义,
VAE 算法的流程如下:
<hr/>VAE 的前沿研究话题(1)VAE 中的解耦
VAE 和普通的自编码器之间的最大差别在于隐变量具有先验。VAE 需要最小化
,因此限制了 z 的空间。同时,VAE 也需要在模型中最大化训练数据 x 的对数似然。在这两个目标的作用下,VAE 通过学习使 z 称为 x 的最高效的表征,即 z 被解耦到不同的维度上。VAE 的简单变体 β-VAE 为 KL 损失引入了一个大于 1 的放缩因子,从而提升解耦的重要性。 (2)正向 vs 逆向 KL 散度
基于最大似然估计的生成模型实际上是在最小化正向 KL 散度
的区域生成样本,这使得生成的样本相较于正向 KL 散度更加逼真,但是这种模型也会导致模式崩溃现象,即生成过程无法覆盖数据分布的所有模式。
关于AI Open
AI Open是一个可自由访问的平台,所有文章都永久免费提供给所有人阅读和下载。该期刊专注于分享关于人工智能理论及其应用的可行性知识和前瞻性观点,欢迎关于人工智能及其应用的所有方面的研究文章、综述、评论文章、观点、短篇交流和技术说明。AI Open将作为中国面向国际人工智能学术、产业界的交流渠道,传播人工智能的最新理论、技术与应用创新,提高我国人工智能的学术水平和国际影响力。AI Open目前已被DOAJ收录,目前累计下载量已经达到6w+,乐观预计1年内能进入SCI。
AI科技评论