强化学习——策略梯度与Actor-Critic算法

acecase · 发表于 2021-12-4 15:13

1 学习目标

（1）理解基于值函数的方法（Value-Based method）和基于策略的方法（Policy-Based method）的不同；
（2）理解策略梯度法（Policy Gradient）的目标函数和优化思路；
（3）理解蒙特卡洛策略梯度和Actor-Critic方法；

2 基于策略的方法

前面学习的一些强化学习算法比如Q-Learning，SARSA，DQN都是基于价值的算法，即得到Q表或者近似一个价值函数，然后根据这个学到的Q表或者Q函数来制定策略。而本文要介绍的算法就是另一个思路了，直接学习策略函数。

基于价值的方法比如DQN，输入的是状态，输出的是Q值，有了状态-动作对到Q值的映射，在某个状态下做决策的时候就选择Q值最大的动作即可，这就是DQN的策略。但是有这样几个问题：
① 在估计值函数的时候一个任意小的变化可能导致对应动作被选择或者不被选择，这种不连续的变化是致使基于值函数的方法无法得到收敛保证的重要因素。
② 选择最大的Q值这样一个搜索过程在高纬度或者连续空间是非常困难的；
③ 无法学习到随机策略，有些情况下随机策略往往是最优策略。以David Silver课件中的一个例子说明：

agent在迷宫中移动寻找宝藏，由于迷宫的对称结构，当agent处在灰色格子上时是无法分辨自己处于哪个灰色格子上的，所以最后学习到的策略可能是这样：

当初始位置在第一个白格子上，就会陷入死循环，但是随机策略就会好一些：

因为学出来的策略不是确定性输出一个动作，而是动作的概率。
针对以上问题，有人就提出了基于策略的方法，即输入状态，直接学习策略。那我们下面就来揭开策略梯度的面纱。

3 策略梯度

思路很直接，我们的最终目标是使回报最大，于是就冲着这个目标制定目标函数 $J\left( \theta \right)$ ，通过训练，得到一个参数化的策略函数 $\pi _{\theta}\left( s,a \right) =\mathbb{P}\left[ a|s,\theta \right]$ 。对于不同的问题类型，有不同的目标函数可以选择：
① 在能够产生完整Episode的环境下，可以使用start value

$\\ J_1\left( \theta \right) =V^{\pi _{\theta}}\left( s_1 \right) =\mathbb{E}_{\pi _{\theta}}\left[ v_1 \right] \\$
② 在连续的环境下，可以使用average value

$\\J_{avV}\left( \theta \right) =\sum_s{d^{\pi _{\theta}}\left( s \right) V^{\pi _{\theta}}\left( s \right)} \\$
③ 或者使用Average reward per time-step

$\\ J_{avR}\left( \theta \right) =\sum_s{d^{\pi _{\theta}}\left( s \right)}\sum_a{\pi _{\theta}\left( s,a \right) \mathcal{R}_{s}^{a}} \\$
有了目标函数，我们当前的任务就是使目标函数最大化，也就是寻得一组参数向量  ，使得目标函数最大。这实际上做的是改变策略概率而非改变行动轨迹。很自然的，下一步就是使用梯度下降（上升）法来完成这个工作，问题就转向 $\nabla _{\theta}J\left( \theta \right)$ 的求解。

我就不废话了，直接给出策略梯度定理：
对于任何可微的策略  ，对于任何策略的目标函数 $J_1,J_{avR}$ 或者 $J_{avV}/\left( 1-\gamma \right)$ ，其梯度都如下式所示，转换成了策略梯度：

$\\\nabla _{\theta}J\left( \theta \right) =\mathbb{E}_{\pi _{\theta}}\left[ \nabla _{\theta}\log \pi _{\theta}\left( s,a \right) Q^{\pi _{\theta}\left( \theta \right)}\left( s,a \right) \right] \\$
回想一下监督学习算法，我们有大量的样本数据，并且数据都有标签，于是在训练的时候知道当前参数下得到的结果是好是坏（能与监督信息对比），然后可以根据对比结果调整参数优化的方向（梯度）。而强化学习里没有一个监督信息告诉我们当前的策略是好是坏，我们得去计算价值函数来起到标签的作用。
一般地，针对离散行为常用softmax策略，即最后得到的  是每一个离散行为应该以怎样的概率来执行。而对于连续问题，则使用高斯策略，因为行为对应于某一个数值，所以学习到的策略是一个高斯分布，通常是对该分布的均值进行参数化表示。

4 蒙特卡洛策略梯度（REINFORCE）

算法描述如下：

首先随机初始化参数 $\theta$ ，对每个episode，计算其t=1到t=T-1的return $v_t$ ，然后使用随机梯度上升法更新参数。对于策略梯度定理公式里的期望，我们通过采样的形式来替代，即使用t时刻的return作为当前策略下动作价值函数的无偏估计。
但是，REINFORCE存在如下三个问题：

① 由于agent在一个episode中会采取很多动作，我们很难说哪个动作对最后结果是有用的，换句话说，这种算法存在高方差（variance）;
② 收敛速度慢；
③ 只在这种episodic环境下能用。
为了解决上述问题，于是提出了Actor-Critic算法。

5 Actor-Critic算法

Actor是演员的意思，Critic是评论家的意思，顾名思义，这种算法就是通过引入一种评价机制来解决高方差的问题。具体来说，Critic就类似于策略评估，去估计动作值函数：

$\\Q_w\left( s,a \right) \approx Q^{\pi _{\theta}}\left( s,a \right) \\$
于是，Actor-Critic算法中就有两组参数：
Critic：更新动作值函数参数  ；
Actor：以Critic所指导的方向更新策略参数  。
所以说，Actor-Critic算法是一种近似的策略梯度

$\\\nabla _{\theta}J\left( \theta \right) \approx \mathbb{E}_{\pi _{\theta}}\left[ \nabla _{\theta}\log \pi _{\theta}\left( s,a \right) Q_w\left( s,a \right) \right] \\$
策略评估在前几讲都有提到，也就是衡量一个策略好坏的过程，可以是MC策略评估，TD或者TD（ $\lambda$ ）。举个例子，假设用一个线性函数来近似动作值函数 $Q_w\left( s,a \right) =\phi \left( s,a \right) ^Tw$ ，那么Critic过程就是用线性TD（0）来更新 $w$ ，Actor过程就是用策略梯度来更新

，具体伪代码如下：

前面提到了，这种算法实际上用了一个近似的策略梯度，这样会引入偏差（bias），导致最后无法收敛到一个合适的策略，一个解决方法就是设计 $Q_w\left( s,a \right)$ 时满足下面两个条件（Compatible Function Approximation Theorem）：
① 近似价值函数的梯度完全等同于策略函数对数的梯度

$\\\nabla _wQ_w\left( s,a \right) =\nabla _{\theta}\log \pi _{\theta}\left( s,a \right) \\$
② 值函数参数  使得均方差最小

$\\\varepsilon =\mathbb{E}_{\pi _{\theta}}\left[ \left( Q^{\pi _{\theta}}\left( s,a \right) -Q_w\left( s,a \right) \right) ^2 \right] \\$
满足以上两个条件，那么 $\nabla _{\theta}J\left( \theta \right) =\mathbb{E}_{\pi _{\theta}}\left[ \nabla _{\theta}\log \pi _{\theta}\left( s,a \right) Q_w\left( s,a \right) \right]$ 。简单的证明如下：

6 Actor-Critic with Baseline

除了引入Critic过程来减小方差，同时也可以采用一种从 $Q^{\pi _{\theta}}\left( s,a \right)$ 减去Baseline的方法来减小方差。具体地，就是从策略梯度中减去baseline函数  ，要求这一函数仅与状态有关，与行为无关，因而这样就不会改变梯度本身。

一个比较好的选择是状态值函数 $V^{\pi _{\theta}}\left( s \right)$ ，基于以上讨论，我们引入一个advantage function函数  ，定义

$\\A^{\pi _{\theta}}\left( s,a \right) =Q^{\pi _{\theta}}\left( s,a \right) -V^{\pi _{\theta}}\left( s \right) \\$

$\\\nabla _{\theta}J\left( \theta \right) =\mathbb{E}_{\pi _{\theta}}\left[ \nabla _{\theta}\log \pi _{\theta}\left( s,a \right) A^{\pi _{\theta}}\left( s,a \right) \right] \\$
好了，接下来的问题就是  怎么去近似了，因为它既有动作值函数，又有状态值函数，是不是就需要两组参数来分别近似这两个函数呢？可以这样做，但一般我们用TD error来近似  ，因为它是  的无偏估计。

$\\ \delta ^{\pi _{\theta}}=r+\gamma V^{\pi _{\theta}}\left( s' \right) -V^{\pi _{\theta}}\left( s \right) \\$

$\mathbb{E}_{\pi _{\theta}}\left[ \delta ^{\pi _{\theta}}|s,a \right] =\mathbb{E}_{\pi _{\theta}}\left[ r+\gamma V^{\pi _{\theta}}\left( s' \right) |s,a \right] -V^{\pi _{\theta}}\left( s \right) \\ =Q^{\pi _{\theta}}\left( s,a \right) -V^{\pi _{\theta}}\left( s \right) \\ =A^{\pi _{\theta}}\left( s,a \right)$
因此有 $\nabla _{\theta}J\left( \theta \right) =\mathbb{E}_{\pi _{\theta}}\left[ \nabla _{\theta}\log \pi _{\theta}\left( s,a \right) \delta ^{\pi _{\theta}} \right]$ ，在实际应用中，可以采用近似的TD error，即 $\delta ^{\pi _{\theta}}=r+\gamma V\left( s' \right) -V\left( s \right)$ 。
不论是Actor还是Critic，我们都可以在不同时间尺度（time-scales）上近似策略梯度或是值函数。直接引用David课程的几页PPT：

最后课程还提了一下Natural Actor Critic算法，这里就不展开说了。

7 总结

这一节应该是目前最难理解的一个小节了，需要重点掌握的是Actor-Critic算法，其核心是策略梯度定理。简单的说，以前基于值函数近似的算法是先近似出一个Q函数，然后用 $\varepsilon -greedy$ 策略去选择要执行的动作，由于种种不足，现在我们直接近似出一个策略函数，蒙特卡洛策略梯度算法虽然计算的策略梯度是无偏的，但是方差大，速度慢，因此我们通过减去Baseline来减小方差，并且引入Critic过程进一步优化，形成了Actor-Critic算法，其中也包括了策略梯度的近似，这样我们就可以利用其能够Bootstrapping的性质加快算法速度，并能够在non-episodic环境下得以使用。策略梯度定理帮助我们把Q函数和策略梯度联系了起来，但是我们并不知道真实的Q函数，所以还得去近似估计，想要得到一个无偏的估计，就得满足Compatible Function Approximation Theorem。

Critic实际上就是策略评估，它引导Actor参数梯度方向走向更好。最后引用David的一页PPT作为结束吧。

参考：

[1] Reinforcement Learning: An Introduction -  Chapter 13: Policy Gradient Method
[2] David Silver&#39;s RL Course Lecture 7 - Policy Gradient
[3] 《强化学习》第七讲策略梯度
[4] 深度增强学习之Policy Gradient方法1
[5] Sutton R S. Policy Gradient Methods for Reinforcement Learning with Function Approximation[J]. Submitted to Advances in Neural Information Processing Systems, 1999, 12:1057-1063.
[6] Peters J, Schaal S. Reinforcement learning of motor skills with policy gradients[J]. Neural Netw, 2008, 21(4):682-697.
[7]  Siyi LI的回答
[8] What&#39;s the difference between Reinforce and Actor-Critic?

DungDaj · 发表于 2021-12-4 15:20

非常感谢，baseline那里帮我解答了很重要的问题

BlaXuan · 发表于 2021-12-4 15:30

“agent在迷宫中移动寻找宝藏”部分最后一个图是不是放错了？和倒数第二个图一样呢？

kyuskoj · 发表于 2021-12-4 15:38

是的谢谢你已经修正

ChuanXin · 发表于 2021-12-4 15:46

赞！谢谢分享！

acecase · 发表于 2021-12-4 15:51

应该是解决高偏差吧不是方差~

JoshWindsor · 发表于 2021-12-4 16:01

请问，最原始的Policy Gradient不应该是回合制的吗，可能我理解有误，请指正

acecase · 发表于 2021-12-4 16:08

问一下大佬，蓝色PPT部分是来自哪里啊，想看一下

IT圈老男孩1 · 发表于 2021-12-4 16:10

看一下参考文献3和4

zifa2003293 · 发表于 2021-12-4 16:12

你的理解没问题, REINFORCE是回合制的

		自动登录	找回密码
密码			立即注册

强化学习——策略梯度与Actor-Critic算法

本帖子中包含更多资源