找回密码
 立即注册
查看: 276|回复: 0

【论文阅读】ADMM算法及其变形

[复制链接]
发表于 2022-8-25 09:17 | 显示全部楼层 |阅读模式
如果优化问题具有可分离性,一个常用的办法就是使用ADMM求解,但是有时候用ADMM求解子问题不能得到闭式解,就会考虑添加一项近邻项【proximal term】。为了使子问题的求解更简单,有时候会考虑线性化技术。由于ADMM算法的高效性,其应用非常广,因此关于ADMM的变形也非常多,但受于知识有限,只能简单介绍其中几种变形
如果优化问题具有如下可分离的形式
\begin{aligned}    \min \quad & f(x) + g(y)\\                                                          {\rm s.t}    \quad &Ax+By=c\\  \end{aligned}\\就可以采用ADMM算法求解,具体如何实现ADMM算法可参考[1]。但是有时候子问题的闭式解求解是困难的,考虑如下Hankel矩阵核范数最小化问题[2] \min_{y}\frac{1}{2}\|\mathcal{A}(y)-b\|^2+\mu\|\mathcal{H}(y)\|_{*}\\ 其中 \mathcal{A}:\mathbb{R}^{m \times n(j+k-1)} \to \mathbb{R}^p 是一个线性映射, b \in \mathbb{R}^p , y=(y_0...y_{j+k-2}) 是一个 m \times n(j+k-1) 的矩阵,其中 y_i,i=1,...,j+k-2 是一个 m \times n 的矩阵。通过引入一个辅助变量,上述优化问题等价于 \begin{aligned} \min\quad  &\frac{1}{2}\|\mathcal{A}(y)-b\|^2+\mu\|Y\|_{*} \\ {\rm s.t} \quad & Y+\mathcal{H}(y)=0 \end{aligned}\\ 其对应的增广拉格朗日函数为
L_{\beta}(Y,y,\Lambda)=\frac{1}{2}\|\mathcal{A}(y)-b\|^2+\mu\|Y\|_{*} -\left<\Lambda ,Y+\mathcal{H}(y) \right>+\frac{\beta}{2}\|Y+\mathcal{H}(y)\|^{2}\\
y 子问题为
\begin{aligned} y^{k+1} &=\arg \min \ L_{\beta}(Y^{k+1},y,\Lambda^{k})\\ &=\arg \min \ y^T(\frac{1}{2}\mathcal{A}^{*}\mathcal{A}+\frac{\beta}{2}\mathcal{H}^*\mathcal{H})y-\left<\mathcal{A}^*(b),y\right>-\left<\mathcal{H}^{*}(\Lambda^k),y\right>+\beta \left<\mathcal{H}^{*}(Y^{k+1}),y\right> \end{aligned}\\ 关于y求导得到 (\mathcal{A}^*\mathcal{A}+\beta \mathcal{H}^*\mathcal{H})y=\mathcal{A}^*(b)+\mathcal{H}^*(\Lambda^k)+\beta \mathcal{H}^*(Y^{k+1})\\ 无法得到y的闭式解,因此在文章[2]中提出通过添加一项近邻项将子问题的求解变得简单,y 子问题的求解变为 y^{k+1} = {\arg\min} \ L_{\beta}(Y^{k+1},y,\Lambda^{k})+\frac{\beta}{2}\|y-y^k\|_{Q_0}^2\\\ 其中 \frac{\beta}{2}\|y-y^k\|_{Q_0}^2 是添加的近邻项, Q_0 是半正定矩阵,通过 Q_0 将影响求解子问题的复杂项 \mathcal{A}^*\mathcal{A}+\beta \mathcal{H}^*\mathcal{H} 给消去,并给定一个简单的正定项。这里通过简单简单计算可以得到 Q_0=\left(r+\frac{(\sigma_{\max}(\mathcal{A}))^2}{\beta}\right)\mathcal{I}-(\mathcal{H}^*\mathcal{H}+\frac{1}{\beta}\mathcal{A}^*\mathcal{A})\\
添加近邻项的ADMM的算法被称为近邻ADMM【Proximal ADMM】,其算法框架为
\begin{aligned} x^{k+1}&=\arg \min \ f(x)-\left<z^k,Ax\right>+\frac{\lambda}{2}\|Ax+By^k-c\|^2+\frac{1}{2}\|x-x^k\|_{S}^2\\ y^{k+1}&=\arg \min \ g(y)-\left<z^k,By\right>+\frac{\lambda}{2}\|Ax^{k+1}+By-c\|^2+\frac{1}{2}\|y-y^k\|^2_{T}\\ z^{k+1}&=z^k-\tau \lambda(Ax^{k+1}+By^{k+1}-c) \end{aligned}\\其中 \tau \in (0,(1+\sqrt{5})/2) 是步长,其中 S,T 是自伴随半正定算子,当 S=T=0 时,该算法变为经典ADMM【classical ADMM】。当步长的选择在 (0,(1+\sqrt{5})/2) 时,算法收敛到最优解。该篇文章是针对两块的,对于3块的近邻ADMM算法是否也有类似的收敛性呢,在文章[3]中证明了三块近邻ADMM算法的收敛性。对ADMM算法的改进还有很多种,目前只接触这些,将在后续的学习过程中不断补充
参考


  • ^https://zhuanlan.zhihu.com/p/377178217
  • ^abhttp://home.ustc.edu.cn/~qingling/pdf/2017-15.pdf
  • ^https://arxiv.org/pdf/1410.7933.pdf
懒得打字嘛,点击右侧快捷回复 【右侧内容,后台自定义】
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Unity开发者联盟 ( 粤ICP备20003399号 )

GMT+8, 2024-11-28 07:00 , Processed in 0.091552 second(s), 25 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表