【深度强化学习】Constraint RL for safe exploration:primal ...
如果觉得有用的话请多多点赞!如果需要转载或者引用的话请注明出处!谢谢大家!在强化学习中,智能体通过在未知环境中探索与试错来学习如何决策。大多数RL算法允许智能体自由地探索环境,并采取任意能够提升奖励的动作,然而,能够获得较高奖励的动作同时也可能会带来较大风险。而在一些实际场景中,确保智能体的安全至关重要。不同于标准RL只需要最大化奖励函数,此时智能体所采取的行为必须能够避免危险的情况,因此设计者需要合理地设计奖励函数,通过不同的权重系数(奖励因子与惩罚因子)在最大化奖励以及减少危险代价之间取得平衡。这其中存在着两个问题:1)需要满足的约束条件与正确的权重参数之间不存在给定的映射关系,如果惩罚因子选取得过小,智能体可能会学习到危险的行为,相反,如果惩罚因子选取得过大,智能体可能无法学习到任何东西;2)对于给定的权重系数,即使能够让智能体最终学习到满足约束的最优策略,也依然无法保证智能体在整个训练过程中都能满足约束。一种确保智能体安全性的方法是在标准马尔科夫框架中增加约束条件,把问题转变成受限马尔科夫决策过程(constraint Markov Decision Process,CMDP),此时智能体的目标是在满足long-term代价约束的条件下最大化long-term奖励。这种方法能够同时解决上述的两个问题。
当前求解CMDP的算法主要包含两大类:原始对偶优化(primal-dual optimization,PDO)算法与 受限策略优化(constraint policy optimization,CPO)算法。其中,PDO算法以 拉格朗日松弛(Lagrangian relaxation)技术为基础,轮流更新原始域参数与对偶域参数。具体来说,原始策略参数利用 策略梯度上升 的方法进行更新,而对偶域的参数则采用 对偶梯度上升 的方法进行更新。CPO与PPO的区别在于对偶域的更新方式,在CPO中,每一次迭代都会通过求解一个精心设计的优化问题来直接求解对偶参数,这样确保了训练过程中约束条件也能够得到满足,CPO是TRPO在CMDP中的扩展。open AI 在对于 safety RL 的benchmark中提到,CPO的实际效果不如PDO,并且CPO的算法框架基于TRPO算法,而PDO可以应用在各种标准RL算法中,因此这里只介绍PDO算法。
Constraint RL
受限马尔科夫决策过程(CMDP)
CDMP 在 MDP 的基础上增加了对于长远折扣代价(long-term discounted costs)的约束。具体来说,假设总共有 https://www.zhihu.com/equation?tex=m 个代价函数 https://www.zhihu.com/equation?tex=C_1%2C...%2CC_m,其中每个代价函数 https://www.zhihu.com/equation?tex=C_i%3A%5Cmathcal%7BS%7D%5Ctimes%5Cmathcal%7BA%7D%5Ctimes%5Cmathcal%7BS%7D%5Crightarrow%5Cmathbb%7BR%7D 表示状态-动作对到代价之间的映射关系。类似于收益,策略下的长远折扣代价被定义为 https://www.zhihu.com/equation?tex=C_%7Bi%7D%28%5Cpi%29%3D%5Cmathbb%7BE%7D_%7B%5Ctau+%5Csim+%5Cpi%7D%5Cleft%5B%5Csum_%7Bt%3D0%7D%5E%7B%5Cinfty%7D+%5Cgamma%5E%7Bt%7D+C_%7Bi%7D%5Cleft%28s_%7Bt%7D%2C+a_%7Bt%7D%2C+s_%7Bt%2B1%7D%5Cright%29%5Cright%5D,对应的约束门限值为 https://www.zhihu.com/equation?tex=d_i。CMDP的目标是在满足长远代价 https://www.zhihu.com/equation?tex=C_%7Bi%7D%28%5Cpi%29+%5Cleq+d_%7Bi%7D%2C+%5Cforall+i+%5Cin%5Bm%5D 的情况下最大化收益 https://www.zhihu.com/equation?tex=R%28%5Cpi%29 ,即
https://www.zhihu.com/equation?tex=%5Cbegin%7Baligned%7D+%5Cpi%5E%7B%2A%7D%3D%26+%5Carg+%5Cmax+_%7B%5Cpi+%5Cin+%5CPi_%7B%5Ctheta%7D%7D+R%28%5Cpi%29+%5C%5C+%26+%5Ctext+%7B+s.t.+%7D+C_%7Bi%7D%28%5Cpi%29+%5Cleq+d_%7Bi%7D%2C+%5Cforall+i+%5Cin%5Bm%5D+.+%5Cend%7Baligned%7D+%5C%5C
除此之外,约束条件还有多种形式,例如机会约束 https://www.zhihu.com/equation?tex=P%28%5Csum_t+C_i%28s_t%2Ca_t%2Cs_%7Bt%2B1%7D%29%5Cge+C_i%29%5Cle+d_i,风险条件价值约束(constraints on the conditional value at risk,与最坏情况结果的一小部分相比的预期代价总和),每个状态的独立约束 https://www.zhihu.com/equation?tex=%5Cmathbb%7BE%7D_%7Ba%5Csim+%5Cpi%7D%5BC_i%28s%2Ca%2Cs%27%29%5D%5Cle+d_i%2C+%5Cforall+s。实际上,在Sutton的书中提到过,所有的目标与目的都可以用奖励函数来表示,因此通过合理设计代价函数所能表示出来的约束条件种类是十分广泛的。
另外,Constraint RL 与 multi-objective RL 十分相近,但是两者有着一定的区别,在constraint RL中,当约束条件得到满足时,通常存在一个饱和点(saturation point),当到达该点时,继续减少代价函数的值就不再具有任何意义,这个点对应的代价函数的值也就是约束条件的门限值,这个门限值在multi-objective RL中不存在类似的定义。
原始对偶优化(primal-dual optimization)
为了求解CMDP,可以采用拉格朗日松弛技术,具体来说,上述CMDP问题的拉格朗日函数为
https://www.zhihu.com/equation?tex=%5Cmathcal%7BL%7D%28%5Cpi%2C+%5Clambda%29%3DR%28%5Cpi%29-%5Csum_%7Bi%7D+%5Clambda_%7Bi%7D%5Cleft%28C_%7Bi%7D%28%5Cpi%29-d_%7Bi%7D%5Cright%29+%5C%5C
其中 https://www.zhihu.com/equation?tex=%5Clambda%3D%5Cleft%28%5Clambda_%7B1%7D%2C+%5Ccdots%2C+%5Clambda_%7Bm%7D%5Cright%29 是拉格朗日因子。原带约束的优化问题可以转换为如下不带约束的优化问题:
https://www.zhihu.com/equation?tex=%5Cleft%28%5Cpi%5E%7B%2A%7D%2C+%5Clambda%5E%7B%2A%7D%5Cright%29%3D%5Carg+%5Cmin+_%7B%5Clambda+%5Cgeq+0%7D+%5Cmax+_%7B%5Cpi+%5Cin+%5CPi_%7B%5Ctheta%7D%7D+%5Cmathcal%7BL%7D%28%5Cpi%2C+%5Clambda%29+%5C%5C
为了求解这个不含约束的minmax问题,标准的方法是采用迭代原始-对偶方法,即在每一次迭代中轮流更新原始策略与对偶变量 https://www.zhihu.com/equation?tex=%5Clambda 。在第 https://www.zhihu.com/equation?tex=k 次迭代中的原始-对偶更新过程如下:
[*]固定 https://www.zhihu.com/equation?tex=%5Clambda+%3D+%5Clambda%5E%7B%28k%29%7D,执行策略梯度上升: https://www.zhihu.com/equation?tex=%5Ctheta_%7Bk%2B1%7D%3D%5Ctheta_%7Bk%7D%2B%5Cleft.%5Calpha_%7Bk%7D+%5Cnabla_%7B%5Ctheta%7D%5Cleft%28%5Cmathcal%7BL%7D%5Cleft%28%5Cpi%28%5Ctheta%29%2C+%5Clambda%5E%7B%28k%29%7D%5Cright%29%5Cright%29%5Cright%7C_%7B%5Ctheta%3D%5Ctheta_%7Bk%7D%7D,其中 https://www.zhihu.com/equation?tex=%5Calpha_k 表示更新步长。这里的策略梯度既可以是 on-policy 的似然比策略梯度(REINFORCE与TRPO等),也可以是 off-policy 的确定性策略梯度(例如DDPG)。
[*]固定 https://www.zhihu.com/equation?tex=%5Cpi%3D%5Cpi_k,执行对偶更新:https://www.zhihu.com/equation?tex=%5Clambda%5E%7B%28k%2B1%29%7D%3Df_%7Bk%7D%5Cleft%28%5Clambda%5E%7B%28k%29%7D%2C+%5Cpi_%7Bk%7D%5Cright%29。CMDP中不同方法的区别就在于对偶更新函数 https://www.zhihu.com/equation?tex=f_k%28%5Ccdot%29 的选择。例如,PDO采用简单的对偶梯度上升 https://www.zhihu.com/equation?tex=%5Clambda_%7Bi%7D%5E%7B%28k%2B1%29%7D%3D%5Cleft%5B%5Clambda_%7Bi%7D%5E%7B%28k%29%7D%2B%5Cbeta_%7Bk%7D%5Cleft%28C_%7Bi%7D%5Cleft%28%5Cpi_%7Bk%7D%5Cright%29-d_%7Bi%7D%5Cright%29%5Cright%5D%5E%7B%2B%7D,其中 https://www.zhihu.com/equation?tex=%5Cbeta_k 是步长, https://www.zhihu.com/equation?tex=%5Bx%5D%5E%7B%2B%7D%3D%5Cmax+%5C%7B0%2C+x%5C%7D 是对于对偶空间 https://www.zhihu.com/equation?tex=%5Clambda+%5Cge+0 的投影。相反,CPO通过在每一次迭代中构建新的优化问题来求解对偶变量 https://www.zhihu.com/equation?tex=%5Clambda%5E%7B%28k%2B1%29%7D ,进一步加强了约束。
实际算法举例
Primal-Dual DDPG for CMDPs
首先提供DDPG算法的原始-对偶版本用于求解CMDP,该算法中的原始策略更新与对偶变量更新均利用经验回访池中的 off-policy 数据样本。为了方便描述,假设此时CMDP中只存在1个约束,但是多个约束的情况也可以轻易地扩展得到。在原始-对偶DDPG算法中,存在以下几个神经网络:
[*]Reward critic Q-network https://www.zhihu.com/equation?tex=Q_%7BR%7D%5Cleft%28s%2C+a+%5Cmid+%5Ctheta_%7BR%7D%5E%7BQ%7D%5Cright%29 以及reward target critic Q-network https://www.zhihu.com/equation?tex=Q%27_%7BR%7D%5Cleft%28s%2C+a+%5Cmid+%5Ctheta_%7BR%7D%5E%7BQ%27%7D%5Cright%29
[*]Cost critic critic Q-networkhttps://www.zhihu.com/equation?tex=Q_%7BC%7D%5Cleft%28s%2C+a+%5Cmid+%5Ctheta_%7BC%7D%5E%7BQ%7D%5Cright%29 以及cost target critic Q-network https://www.zhihu.com/equation?tex=Q%27_%7BC%7D%5Cleft%28s%2C+a+%5Cmid+%5Ctheta_%7BC%7D%5E%7BQ%27%7D%5Cright%29
[*]Actor policy network https://www.zhihu.com/equation?tex=%5Cmu%28s%7C%5Ctheta%5E%5Cmu%29 以及 actor target policy network https://www.zhihu.com/equation?tex=%5Cmu%27%28s%7C%5Ctheta%5E%7B%5Cmu%27%7D%29
具体算法如下:
可以看出,这里的算法与标准DDPG的算法区别在于:
[*]多了1个用于表征长远折扣代价的神经网络;
[*]需对对偶域的拉格朗日因子即惩罚因子进行梯度上升。
类似的,PDO还可以应用在TRPO、PPO、TD3、SAC等算法上。
参考文献
A. Ray, J. Achiam, and D. Amodei, ‘Benchmarking Safe Exploration in Deep Reinforcement Learning’, p. 25.
Q. Liang, F. Que, and E. Modiano, ‘Accelerated Primal-Dual Policy Optimization for Safe Reinforcement Learning’, arXiv:1802.06480 , Feb. 2018, Accessed: Apr. 14, 2021. . Available: http://arxiv.org/abs/1802.06480
页:
[1]