Constrained Variational Policy Optimization for Safe ...
Zuxin LiuCMU
ICML2022
备注:
作者在Safe RL的问题中引入了变分推断,核心是将“求取到最优的轨迹分布”作为一个事件O,引入轨迹tao的一个任意分布,做ELBO处理(变分就是轨迹tao的一个任意分布q)
做了ELBO之后,为了最大化下界,采用两步的方法,第一步最优化q,第二步进行策略提升,最优化pi
关于q,作者得出了一个显式的结论,有点类似于first order【Yiming Zhang,New York University,Nips2020】提出的最优形式的q分布。
关于具体算法,q分布初始化为策略分布pi,在策略pi下采样估计Q_cost,Q_reward,从而得到显式的q分布;然后在q分布下采样轨迹,最优化策略pi。
实验在多个连续的机器人任务上做了,效果很好。
1、摘要:
文章提出了一个EM风格的算法来学习安全策略。
Safe RL问题可以被分解为1)一个包含非参的变分分布的凸优化问题2)一个监督学习的问题。证明了这样处理的最优性和策略提升的稳定性,在连续robotics任务上做了大量实验,效果很好。
2、intro:
在safe RL的setting下,采样效率不仅仅值最小的交互次数,也指要有最小的约束违背cost
RL优化方法应当有三个指标:1)采样效率2)稳定3)最优性保证
CVPO方法在第一步转化为凸问题提供了最优性保证,第二步监督学习提供了策略提升的界,以及提供了鲁棒性的保证来恢复到可行域,这保证了算法的稳定性。
主要贡献:
1、这是第一个工作把safe RL建构为概率推断的问题
2、提出了一个两步的方法自然地在策略训练中包含安全性约束
3、在第一步E-step提供了一种显式的变分分布,兼具计算效率和最优性保证。
4、实验在许多任务上做了。
3、background:
传统形式定义:
4、CVPO
传统的方法是迭代更新lambda值:
选择最佳的对偶变量是比较critical的,我们希望不满足约束的时候lambda是无穷,满足约束的时候是0,这样的lambda在策略梯度更新的时候不是很友好。
作者从概率推断的方向这样诠释这个问题:
求得问题的最优解是一个事件,实际得到的奖励值是一个观测,这样表述的话我们就有如下等式:
很好理解:当前轨迹是最优解的概率与累计奖励值(的exp)成正比,exp是为了归一化
5、ELBO处理:key equation
有上述定义,我们可以将log-expectation形式的最优化目标进行常规的ELBO处理,其中引入的q分布就是轨迹tao的任意一个分布。
唯一的区别就是在safe RL中,为了满足约束,q分布中采的轨迹需要满足约束,所以用如下方式定义q分布:
KL散度里做完log,连乘变成累计和,简化为如下的优化目标:
既然已经有ELBO了,那么分两步来进行优化下界,第一步Estep优化q这个分布,第二步Mstep优化策略,类似于EM算法。
6、关于q分布的显式形式:
坐标上升法在E step优化ELBO的最优值:
trick:常见的trick,直接把KL分布拿到约束里去,增加一个超参数:
对于这个问题,采用类似于CPO的方法做线性化之后可以有最优解(证明暂时没看,预计和yimingzhang的证明方法差不多),最优解的形式同样是一个boltzman分布:
7、策略提升:M-step:
常规策略提升方法:
8、理论分析(暂略)
9、算法:
比较困惑的是为什么作者把12式叫做监督学习目标函数??
10、实验:safe-gym上做的实验
公式12是个交叉熵,q在m-step是fix的,相当于label,或者说imitation learning的expert policy,所以被叫做监督学习? [赞同],确实是加了kl散度限制的监督学习过程
页:
[1]