Constrained Variational Policy Optimization for Safe ...

xiaozongpeng 发表于 2022-6-14 15:14

Zuxin Liu
CMU
ICML2022

备注：

作者在Safe RL的问题中引入了变分推断，核心是将“求取到最优的轨迹分布”作为一个事件O，引入轨迹tao的一个任意分布，做ELBO处理（变分就是轨迹tao的一个任意分布q）
做了ELBO之后，为了最大化下界，采用两步的方法，第一步最优化q，第二步进行策略提升，最优化pi
关于q，作者得出了一个显式的结论，有点类似于first order【Yiming Zhang，New York University，Nips2020】提出的最优形式的q分布。
关于具体算法，q分布初始化为策略分布pi，在策略pi下采样估计Q_cost,Q_reward,从而得到显式的q分布；然后在q分布下采样轨迹，最优化策略pi。
实验在多个连续的机器人任务上做了，效果很好。

1、摘要：

文章提出了一个EM风格的算法来学习安全策略。
Safe RL问题可以被分解为1）一个包含非参的变分分布的凸优化问题2）一个监督学习的问题。证明了这样处理的最优性和策略提升的稳定性，在连续robotics任务上做了大量实验，效果很好。

2、intro：

在safe RL的setting下，采样效率不仅仅值最小的交互次数，也指要有最小的约束违背cost
RL优化方法应当有三个指标：1）采样效率2）稳定3）最优性保证
CVPO方法在第一步转化为凸问题提供了最优性保证，第二步监督学习提供了策略提升的界，以及提供了鲁棒性的保证来恢复到可行域，这保证了算法的稳定性。
主要贡献：
1、这是第一个工作把safe RL建构为概率推断的问题
2、提出了一个两步的方法自然地在策略训练中包含安全性约束
3、在第一步E-step提供了一种显式的变分分布，兼具计算效率和最优性保证。
4、实验在许多任务上做了。

3、background：

传统形式定义：

4、CVPO

传统的方法是迭代更新lambda值：

选择最佳的对偶变量是比较critical的，我们希望不满足约束的时候lambda是无穷，满足约束的时候是0，这样的lambda在策略梯度更新的时候不是很友好。

作者从概率推断的方向这样诠释这个问题：
求得问题的最优解是一个事件，实际得到的奖励值是一个观测，这样表述的话我们就有如下等式：
很好理解：当前轨迹是最优解的概率与累计奖励值（的exp）成正比，exp是为了归一化

5、ELBO处理：key equation

有上述定义，我们可以将log-expectation形式的最优化目标进行常规的ELBO处理，其中引入的q分布就是轨迹tao的任意一个分布。

唯一的区别就是在safe RL中，为了满足约束，q分布中采的轨迹需要满足约束，所以用如下方式定义q分布：

KL散度里做完log，连乘变成累计和，简化为如下的优化目标：

既然已经有ELBO了，那么分两步来进行优化下界，第一步Estep优化q这个分布，第二步Mstep优化策略，类似于EM算法。

6、关于q分布的显式形式：

坐标上升法在E step优化ELBO的最优值：

trick：常见的trick，直接把KL分布拿到约束里去，增加一个超参数：

对于这个问题，采用类似于CPO的方法做线性化之后可以有最优解（证明暂时没看，预计和yimingzhang的证明方法差不多），最优解的形式同样是一个boltzman分布：

7、策略提升：M-step：

常规策略提升方法：

8、理论分析（暂略）

9、算法：

比较困惑的是为什么作者把12式叫做监督学习目标函数？？

10、实验：safe-gym上做的实验

RedZero9 发表于 2022-6-14 15:16

公式12是个交叉熵，q在m-step是fix的，相当于label，或者说imitation learning的expert policy，所以被叫做监督学习？

Ilingis 发表于 2022-6-14 15:25

[赞同]，确实是加了kl散度限制的监督学习过程

页: [1]

Unity开发者联盟's Archiver

Constrained Variational Policy Optimization for Safe ...