【强化学习】AutoRL论文总结

yukamu · 发表于 2022-5-10 08:38

写在前面：本菜鸡刚开始入门科研，读论文非常慢、比较细，概括能力太差，对很多东西不是100%了解，所以不想自己瞎写误导别人，做笔记的目的主要是供自己参考，等后面自己水平上去了，再考虑概括性地分享，请大佬们海涵。如果有对某些分享的内容、方向、问题感兴趣的小伙伴，非常欢迎找我私聊讨论，共同学习交流~

论文名称：Automated Reinforcement Learning (AutoRL): A Survey and Open Problems

论文链接：
发表日期: January 11, 2022
机构: University of Oxford etc.
主题: AutoRL；AutoML
类别: 综述
0 摘要

强化学习（RL）与深度学习的结合已经带来了一系列令人印象深刻的成就，许多人相信（深度）RL提供了一条通向一般能力智能体的道路。然而，RL智能体的成功通常对训练过程中的设计选择高度敏感，这可能需要繁琐且容易出错的手动调整。这使得使用RL解决新问题具有挑战性，同时也限制了它的全部潜力。在机器学习的许多其他领域，AutoML已经表明，自动化此类设计选择是可能的，并且在应用于RL时也产生了有希望的初步结果。然而，自动强化学习（AutoRL）不仅涉及AutoML的标准应用，还包括RL特有的其他挑战，这些挑战自然会产生一组不同的方法。因此，AutoRL已经成为RL的一个重要研究领域，为从RNA设计到玩围棋等游戏的各种应用提供了前景。鉴于RL中考虑的方法和环境的多样性，大部分研究都在不同的子领域进行，从元学习到进化。在这项综述中，我们试图统一AutoRL领域，我们提供了一个共同的分类法，详细讨论了每个领域，并提出了开放性问题，这将是未来研究人员感兴趣的问题。
1 引言

尽管RL取得了一些令人印象深刻的成就，但许多标题结果依赖于经过大量调优的实现，这些实现无法推广到预期的领域之外。事实上，RL算法已被证明对超参数和深层神经网络的结构极其敏感（Henderson et al.，2018；Andrychowicz et al.，2021；Engstrom等人，2020年），而有越来越多的额外设计选择，如智能体的目标（Hessel等人，2019年）和更新规则（Oh等人，2020年）。对于人类来说，一次手动优化如此多的设计选择既繁琐又昂贵，甚至可能容易出错。在机器学习（ML）的其他领域，自动化机器学习（AutoML，Hutter等人（2019））也取得了重大成功。然而，这些方法尚未对RL产生重大影响，考虑到环境和算法的多样性以及RL问题的非平稳性，应用通常具有挑战性。
这项综述的目的是介绍自动强化学习（AutoRL）领域，作为一套自动化不同程度的RL流水线的方法。AutoRL解决了各种各样的挑战：一方面，RL算法的脆弱性阻碍了在新领域的应用，尤其是那些从业者缺乏大量资源来搜索最佳配置的领域。在许多情况下，为一个完全未知的问题手动查找一组中等强度的超参数可能会花费高昂的成本。AutoRL已经被证明可以在这种情况下帮助解决重要问题，例如设计RNA（Runge等人，2019年）。另一方面，对于那些拥有更多计算能力的人来说，增加算法的灵活性显然可以提高性能（Xu等人，2020年；Zahavy等人，2020年；Jaderberg等人，2017年）。这已经在著名的AlphaGo智能体中得到了展示，通过使用贝叶斯优化，该智能体得到了显著改进（Chen等人，2018年）。
早在20世纪80年代，可以被认为是AutoRL算法的方法就被证明是有效的（Barto&Sutton，1981）。然而，最近AutoML的流行导致了更先进技术的新生应用（Runge et al.，2019；Chiang et al.，2019）。与此同时，几十年来，进化界一直在进化神经网络及其权重（Stanley&Miikkulainen，2002），其方法的灵感来源于那些被证明对现代RL有效的方法（Jaderberg et al.，2017）。此外，最近元学习的流行导致了一系列试图自动化RL过程的工作（Houthooft等人，2018年；Xu等人，2018年；Kirsch等人，2020年）。
在本文中，我们试图提供这些方法的分类。通过这样做，我们希望通过思想的交叉传粉，开辟未来的工作领域，同时也向RL研究人员介绍一套技术，以提高他们算法的性能。我们相信AutoRL在帮助强化学习的潜在影响方面发挥着重要作用，无论是在开放式研究还是实际应用中，这项综述可能会成为那些希望利用其潜力的人的起点。
此外，我们希望将对AutoML感兴趣的研究人员更广泛地吸引到AutoRL社区，因为AutoRL带来了独特的挑战。特别是，RL受到非平稳性的影响，因为智能体正在训练的数据是当前策略的函数。此外，AutoRL还包括针对RL问题的环境和算法设计。我们认为，这些挑战将需要今后开展大量工作，因此本文将概述一些有待解决的问题。
2 符号和背景

In almost all cases, RL considers the problem of finding a policy $\pi _\theta: \mathcal{S} \rightarrow \mathcal{A}$ parameterized by (e.g., the weights of a neural network) to maximize cumulative reward:

2.1 内循环优化

无模型方法
- 基于策略
- 基于价值
基于模型方法

2.2 最优化问题的非平稳性

在人工智能的各个领域，如进化算法或深度学习，众所周知，一些超参数需要随着时间的推移进行调整，以实现最佳性能（例如，见Moulines&Bach，2011；Doerr&Doerr，2020）。深度学习中的学习率就是一个很好的例子。保持静态学习率可能会导致学习速度非常慢，甚至导致学习行为的分化。由于深度神经网络是目前RL领域中常用的函数逼近方法，因此可以预期，RL中需要对超参数进行类似的动态处理。事实上，现有的优化实验已经观察到，动态调整学习率也有利于无模型和基于模型的RL（Jaderberg等人，2017年；Zhang等人，2021年）。
此外，RL的性质进一步放大了超参数的潜在非平稳性，即使在静止环境中也是如此（Igl等人，2021年）。使用试错学习方法，RL智能体不断（重新）生成自己的训练数据，这在很大程度上取决于智能体的当前实例化。因此，在整个训练过程中，超参数设置可能需要非常不同的值。实际上，除了经典的静态优化方法外，AutoRL方法通常还包括动态选择配置的方法。当我们介绍AutoRL方法的当前状态时，我们将在第4节中详细讨论这些。
3 哪些东西需要自动化？

这章讲AutoRL想要解决什么问题，章节顺序和使用RL解决某个问题要考虑的事情的顺序相一致。图1展示了标准RL流水线中可调的组件，大到一个算法，小到一个超参数。

3.1 我们如何设计任务？

当我们在新的问题设置上使用RL时，设计学习环境通常是首先要考虑的问题。首先，用户必须指定一个奖励函数 $R(s,a,s')$ 。这通常被认为是在许多RL论文和通用基准中提供的（Bellemare等人，2012年；Brockman等人，2016年），但对于许多现实世界的问题设置这一点肯定不是小事。例如，对于机器人操作，奖励可以在任务完成后提供，也可以基于某种中间目标（如到达感兴趣的目标）提供。这些差异通常会对策略优化的成功产生巨大影响（格里夫等人，2021年）。
通常情况下，还需要确定应该为该智能体提供什么作为观测。例如，当从像素进行训练时，通常会部署一系列预处理步骤，这些步骤可能会根据环境进行定制。事实上，DRL最早的成功应用之一就是利用灰度来简化学习问题，并叠加连续帧来形成观测（Mnih等人，2013年）。虽然并不总是需要这种额外的处理，但直接使用原始帧在计算和内存需求方面可能要求很高（Mnih等人，2013年）。此外，较大的动作空间会使智能体开始学习变得非常困难；因此，研究人员通常需要为某个智能体选择可用的动作，或考虑学习它们（Farquhar等人，2020年）。最后，训练环境也可以由设计器控制。我们在第4.8节中讨论了各种各样的自动化环境设计方法。
3.2 我们使用哪种算法？

一旦我们能够定义要解决的MDP（或POMDP），下一个问题就是算法的选择。在RL已经表现出强大性能的情况下，选择似乎相当简单。例如，在玩一款新的Atari游戏时，DQN的一种变体可以表现良好。对于MuJoCo（Todorov等人，2012年）的连续控制任务，演员-评论家算法，如SAC（Haarnoja等人，2018年）可能是一个强有力的基线。然而，即使对于这些标准基准，RL智能体也很脆弱（Henderson et al.，2018；Andrychowicz et al.，2021；Engstrom et al.，2020），而且这种选择并不像看起来那么简单。对于一个全新的问题，挑战要大得多，并且阻止了RL在现实世界问题中的应用。由于缺乏该领域的专业知识或巨大的计算资源，许多用例可能会导致次优解，因为在某些不相关的问题上成功地使用了任意算法。
要解决使用哪种算法的问题，有多种可能的途径。我们可以使用“学习如何学习”的方法（Andrychowicz等人，2016年；Chen等人，2017年），在这种方法中，元学习器可以学习一种能够在一系列相关任务中表现出色的智能体。智能体将在一个任务的分布上进行训练，并在测试时学习在rollout期间识别任务。例如，这种识别能力可以通过递归神经网络（RNN）来实现，该网络根据策略的状态推出策略，从而对手头的任务进行编码。
我们可以学习目标函数本身，每个目标函数定义一个新算法。以最普遍的形式，  是给定环境中最大化的目标。在DRL的背景下，这个目标在模型参数方面是不可微的；因此，在实践中使用智能体目标，这对学习动态有很大影响。事实上，DRL的许多进步源于目标函数的改进，例如double Q-learning（van Hasselt等人，2016年）、distributional value functions（Bellemare等人，2017年）等等（Lillicrap等人，2016年；Schulman等人，2017a；Haarnoja等人，2018年）。这些算法在由人类专家设计的目标函数上存在根本性差异。即使对已知目标函数进行较小的调整也会产生很大的影响，例如Munchausen-DQN（Vieillard et al.，2020）和CQL（Kumar et al.，2020b），但这些调整需要大量的理论分析和经验实验来验证其有效性。
人们还可以根据多重评估在现有算法之间做出分类选择。在AutoML中，这种算法选择可以通过算法选择实现自动化（Rice，1976）。在算法选择中，一个元学习模型用于决定在当前环境中使用哪种算法。所谓的选择器是根据过去观察到的性能和环境特征进行训练的。虽然这减轻了对专家知识的需求，但它可能需要许多资源来收集足够的性能数据，以学习性能良好的选择器。我们将在第4.7节中讨论与学习算法相关的工作。
3.3 我们使用哪种神经架构？

机器学习的许多重大突破都是通过引入新的神经架构实现的（Krizhevsky等人，2012年；He等人，2016年；Vaswani等人，2017年）。为了使这一发现自动化，神经架构搜索领域（NAS）（Elsken等人，2019年；Lindauer& Hutter，2020）在过去几年中已成为一个活跃的研究领域。与监督学习相比，RL中神经结构的设计很少受到关注。对于来自本体状态的任务，通常使用两个或三个隐层的前馈MLP，而许多从像素学习的作品仍然使用原始DQN论文中使用的卷积神经网络（CNN）架构，称为“Nature CNN”。最近，利用IMPALA论文（Espeholt et al.，2018）中提出的网络已变得司空见惯，该网络现在被称为“IMPALA-CNN”。虽然IMPALA-CNN已被证明是一个更强大的视觉和泛化架构（Cobbe等人，2020年，2019年），但几乎没有对替代方案进行研究，尽管有些研究侧重于在策略中使用注意力模块（Parisotto等人，2020年；Tang等人，2020年；Zambaldi等人，2019年）。
与IMPALA-CNN一起，有证据表明，更深、更密集的网络、使用不同的非线性以及正则化器（如批正则化器）可以改善一系列操作和移动任务的当前方法（Sinha等人，2020；Song等人，2020），甚至对于MLP设置也是如此。Kumar等人（2020a）进一步阐述了基于价值的方法参数化不足的缺点。总的来说，对于架构设计选择及其在RL领域的好处，在概念上的理解（和吸收）仍然很少。虽然Cobbe等人（2020年、2019年）在RL泛化中显示出过参数化和批量归一化（Ioffe&Szegedy，2015年）有效果，但尚不清楚它们是否可以用监督学习理论来解释，即隐式正则化（Neyshabur，2017年；Neyshabur等人，2015年）、神经切线核（Jacot等人，2018年；Arora等人，2019年），复杂性度量（Neyshabur等人，2019年）和景观平滑度（Santurkar等人，2018年）。鉴于可以使用许多不同的方法来解决RL中的神经结构，我们将在不同的章节中讨论试图解决RL中神经结构的工作。
3.4 我们选择什么超参数？

定义任务并选择（或学习）算法和架构后，剩下的最后一个挑战是选择超参数。AutoRL研究最广泛的领域是RL算法对超参数的敏感性。事实上，在一项最著名的研究中，Henderson et al.（2018）发现，许多最成功的最新算法在超参数、实现甚至种子方面都很脆弱，而Islam et al.（2017）指出，鉴于超参数对性能的影响，比较不同论文中的基准算法具有挑战性。
更容易理解的超参数之一是折扣因子 $\gamma$ ，它决定了回报的时间尺度。Prokhorov和Wunsch（1997年）以及Bertsekas和Tsitiklis（1996年）发现，较低的折扣银子会导致更快的收敛，并有导致短视策略的潜在风险。Singh和Dayan（1996）探讨了TD学习对步长和eligibility trace参数的选择比较敏感。
在具体算法方面，Andrychowicz等人（2021年）对 on-policy 参与者-批评家算法的设计选择进行了广泛调查。他们发现损失函数、架构甚至初始化方案在性能上存在显著差异，这些选择之间存在显著依赖性。Obando Ceron和Castro（2020）也探讨了off-policy RL的设计选择，强调了MSE和Huber损失函数，同时也评估了n-step回报的重要性，Fedus等人和Rowland等人（2020年）也进行了研究。Bas Serrano等人（2021年）表明，通过使用logistic Bellmann误差函数确保Q-学习的凸性，性能得到了改善。此外，Liu等人（2021b）表明，正则化子的选择也会显著影响性能。
最后，除了旗鼓相当的超参数之外，还有一些重要的代码级实现细节。Henderson等人（2018年）发现了这一点，并表明同一算法的不同代码库产生了明显不同的结果。此外，Engstrom等人（2020年）研究了流行的策略梯度算法（PPO、Schulman等人（2017a）和TRPO Schulman等人（2015））的实现细节，发现奖励标准化等细节在RL性能中起着关键作用。由于该领域是AutoRL研究最多的部分，我们将在第4.1-4.6节中讨论超参数优化问题的各种不同解决方法。
4 自动化强化学习的方法

在本节中，我们将综述AutoRL的方法，这些方法涵盖了广泛的社区和广泛的技术。一般来说，大多数方法都可以方便地按照内循环（由标准RL流水线组成）和外循环（优化智能体配置）的组合进行组织。每个循环都可以通过黑盒优化或基于梯度的方法进行优化，尽管外循环使用梯度和内循环使用黑盒的组合是不可能的，因为内循环黑盒设置会使梯度不可用。如表2和图2所示。
在表3中，我们总结了AutoRL方法的分类以及广泛的种类（它们经常重叠）。每种方法都有自己的优缺点，因为不可避免地会有取舍，比如样本效率和计算效率。每种方法的适用范围也大不相同，从调整单个超参数到学习奖励函数，或从头开始学习整个算法。在每一小节中，我们首先讨论相关方法，然后再提出开放性问题。

4.1 随机/网格搜索驱动的方法

我们首先讨论最简单的方法：随机搜索（Bergstra&Bengio，2012）和网格搜索（Hutter等人，2019）。顾名思义，随机搜索从搜索空间中随机抽取超参数配置，网格搜索将搜索空间划分为固定的网格点进行评估。由于其简单性，可以使用随机搜索和网格搜索来选择超参数列表【如表3所述，这些方法也适用于架构和算法，但它们通常只应用于超参数。它们以选择的形式应用于架构，例如，网络的层数或层的宽度，但我们在超参数下包括这些基本的架构选择】，详尽地评估所有这些方法，并选择最佳配置，使它们成为非常通用的方法。事实上，网格搜索仍然是RL中最常用的方法，在超参数被调整的绝大多数情况下都是如此，但不应被视为最有效的方法。
这些经典方法没有考虑优化问题的潜在非平稳性（回顾第2.2节）。下面我们用图3描述这个问题。假设我们使用这些程序来最小化具有两个连续超参数  和  的RL算法的损失（见图3）。我们并行评估9个超参数设置。在  时（图3的第一列），我们观察所有设置的性能，如蓝色阴影区域所示。很明显，  的变化导致智能体性能差异很小，而  的变化导致性能差异很大。虽然随机搜索可能会观察到每个超参数9个唯一值的性能，但网格搜索只观察到3个。在  时（图3的中间一栏），我们观察到损失情况发生了变化，现在这两个超参数都对最终性能产生了影响。此外，虽然在优化程序的早期阶段，  的大值是有益的，但现在较小的值更可取。查看整个优化过程中的平均损失（图3的最后一列），我们可以看到，这个视图虽然经常与静态配置方法（整个优化过程中超参数不变）一起使用，但会抽象掉很多信息。例如，两种方法都认为  的重要性远低于  ，尽管它在整个优化过程中具有更大的整体影响。在  时，  的低值导致性能差，而在  时，大值导致性能差。如果我们现在平均一段时间后的表现，它似乎几乎没有影响。类似地，仅查看最终性能会隐藏大量有价值的信息，并可能导致在运行的不同阶段出现次优超参数配置。因此，在运行期间需要更改超参数以实现最佳性能的情况下，这些方法可能是不够的。

提高随机搜索性能的常用方法是使用Hyperband（Li等人，2017），这是一种基于bandit的超参数优化的配置评估方法。它的重点是通过自适应资源分配和提前停止来加速随机搜索。超参数优化任务被认为是一个纯探索的非随机无限臂bandit问题，其中预定义的资源（如迭代、数据样本或特征）被分配给随机采样的配置。特别是，Hyperband使用连续减半（Jamieson&Talwalkar，2016），将预算分配给一组超参数配置。这是统一完成的，在预算耗尽后，一半的配置将基于性能被拒绝。排名前50%的将得到保留，并以两倍于预算的成本接受进一步训练。重复此过程，直到只剩下一种配置。Zhang等人（2021年）使用随机搜索和Hyperband调整其MBRL算法的超参数。此外，Zhang等人（2021年）分析了所考虑的预算中配置性能的相关性，基于低相关性，他们从静态配置方法转向动态配置方法。
开放性问题：随机/网格搜索方法的主要缺点是无法充分利用超参数搜索空间中有希望的区域的信息来做出明智的决策。在优化过程中，随着越来越多的超参数配置被试用，这些信息变得更加清晰。然而，由于这些方法只专注于探索，而不利用这些信息，因此随着搜索空间的增大，它们的扩展性通常很差。
4.2 贝叶斯优化

接下来涉及的一组方法是那些固有的序列决策概念。贝叶斯优化（BO，Mockus（1974），Jones et al.（1998），Brochu et al.（2010））是迄今为止最流行的方法之一，用于工业应用（Golovin et al.，2017；Balandat et al.，2020；Perrone et al.，2021）和各种科学实验（Frazier&Wang，2015；Hernández Lobato et al.，2017；Li et al.，2018；格里菲斯和埃尔南德斯·洛巴托，2020年；Tran等人，2021；van Bueren等人，2021年）。对于RL应用，BO最突出的用途之一是调整AlphaGo的超参数，包括其核心蒙特卡罗树搜索（MCTS）（Browne等人，2012）超参数和时间控制设置。这使得AlphaGo的获胜率在自博弈中从50%提高到了66.5%（Chen等人，2018年）。在图4中，我们展示了RL情况下贝叶斯优化的一般概念。
由于相当大的优化开销，标准的BO方法需要昂贵的黑盒评估，比如训练一个ML算法到最后以观察精度。这种训练方式既耗时又昂贵，因为每次设置可能需要数小时甚至数天的时间。调整RL超参数的标准BO的另一种选择是利用不同的保真度（Cutler等人，2014年；Kandasamy等人，2016年），例如不同数量的种子和世代数。特别是，最近的工作试图利用RL应用中随时可用的内部信息来改进优化，我们将在下面介绍。

BOIL（Nguyen等人，2020年）通过对训练曲线建模来提高调整性能，提供信号来指导搜索。它将整个训练曲线转换为数值分数，以表示高性能曲线和低性能曲线。然后，BOIL引入了一种数据增强技术，利用训练曲线中的中间信息来通知底层GP模型。该算法不仅选择要评估的超参数设置，还选择它应该评估的时间。因此，当不考虑成本的算法只能运行几个昂贵的实验时，BOIL可以运行大量廉价（但高实用性）的实验，从而在调整DRL智能体时，比传统的BO方法具有更高的样本效率。
也可以利用外部知识获得最大可实现回报，即知道 $max_\tau \sum _{t \ge 0} \gamma ^tr_t$ 以改善RL中的超参数调整。对于某些RL任务，该最佳值提前可用，例如在CartPole中，最大奖励（当 $\gamma =1$ 时）为200。为了利用这些知识，Nguyen和Osborne（2020）提出（i）转换替代模型，以及（ii）使用最佳值选择下一个点。他们表明，利用这些外部信息可以改进优化。
此外，Hertel等人（2020年）采用了连续减半（Jamieson&Talwalkar，2016）、随机搜索和BO，并得出结论，具有噪声鲁棒的采集函数的贝叶斯优化是RL任务中超参数优化的最佳选择。最后，Lu等人（2021年）表明，在使用BO调整超参数时，使用离线RL训练的智能体有可能提高性能（Wan等人，2021年）。
开放性问题：基于BO的方法通常执行静态调整，这可能不是RL最有效的方法。虽然有一些BO方法（Parker Holder et al.，2020a）考虑到了优化的时间性，尤其是与RL相关的优化，但就我们所知，这些方法是稀缺的。
4.3 进化方法

进化方法广泛应用于不同领域的各种优化任务。它们可能有不同的方式来表示任务和机制，以变异、重组、评估和选择参数。这些机制如图5所示。
虽然DRL社区中的许多人熟悉进化策略（ES，Rechenberg（1973）），这是一种可以用来代替RL算法优化策略的特定进化方法（如等人，2018年；雷曼等人，2018年；Chrabszcz等人，2018年），但与更广泛的进化计算社区的交叉授粉仍然很少。与AutoRL相关的一个特定子领域是神经进化（Stanley et al.，2019），受生物大脑的启发，它被用于进化权重和架构。特别是，在21世纪初（Stanley&Miikkulainen，2002），NEAT算法被证明能有效地改进Pole Balancing的架构，早于对DRL的兴趣激增。通过扩展到HyperNEAT（Stanley et al.，2009），NEAT变得更具表现力，这在最初的论文中是在机器人控制任务中评估的。从那时起，NEAT和HyperNEAT已经在一系列控制问题中行了评估（Lee等人，2013年；Gomez等人，2006年；Clune等人，2009年；Risi&Stanley，2013年），甚至在DQN的开创性论文（Hausknecht等人，2014年）发表之前，还训练智能体玩Atari游戏。最近，WANNs（Gaier&Ha，2019）表明，通过使用一个随机初始化的权重参数，仅进化网络拓扑，就可以使用NEAT来解决RL任务。
进化方法也被用来搜索RL算法的超参数。Eriksson等人（2003年）使用实数遗传算法（GA，Michalewicz（2013）），通过种群中每个个体的基因对RL算法的超参数进行编码，以调整SARSA(  )的超参数，将该方法应用于控制移动机器人。Cardenoso Fernandez和Caarls（2018）使用GAs在简单设置下调整RL算法的超参数，并通过与自动重启策略（Fukunaga，1998）相结合来摆脱局部极小值，实现了良好的性能。类似地，Sehgal等人（2019年）也表明，通过调整超参数配置，GAs可以通过事后经验回放（Andrychowicz等人，2017年）提高DDPG的性能。Ashraf等人（2021年）使用鲸鱼优化算法（WOA、Mirjalili和Lewis（2016年）），该算法受座头鲸狩猎策略的启发，在各种RL任务中优化DDPG的超参数，以提高性能。
开放性问题：进化方法的一个关键挑战是效率低下，通常需要数千个CPU核才能实现强大的结果。虽然这可能适用于设备齐全的工业实验室，但这使得许多方法在中小型种群和许多实际应用中不切实际。此外，大规模进化方法同时应用于超参数（  ）和神经网络参数（  ）的情况仍然很少，尽管最近的研究，如ES-ENAS（Song等人，2021年）试图通过组合不同的进化算法来实现这一点。
4.4 基于种群的训练

在本节中，我们将重点介绍一种特定类型的进化算法，称为基于种群的训练（PBT，Jaderberg等人（2017））。虽然PBT继承了许多进化方法的思想（Spears，1995；Bck，1998；Gloger，2004；Clune等人，2008），但它指的是在RL中特别成功的一类特定方法。PBT试图复制人类观察实验的方式；它并行训练多个智能体，并定期用强智能体的副本替换弱智能体。受拉马克进化算法（Whitley et al.，1994）的启发，PBT寻求“利用”更强的智能体权重，同时“探索”超参数空间，通常是通过随机扰动。这一过程的好处是，在获得并行计算资源的情况下，可以使用与单个训练运行相同的挂钟时间探索超参数空间。
PBT的另一个关键优势是学习超参数时间表的能力，这在原始论文中被证明在RL中特别有效，可能是由于问题的非平稳性（见：第2.2节）。因此，PBT在许多备受瞩目的RL出版物中发挥了重要作用（施密特等人，2018年；刘等人，2019b，2021a；埃斯佩霍尔特等人，2018年；贾德伯格等人，2019年；Team等人，2021；张等人，2021年）。
在下文中，我们将简单介绍PBT类方法如何生成超参数时间表。为此，我们考虑随机搜索的动态版本：在固定时间间隔后对超参数重新采样的版本（见图6）。假设我们使用这些程序来最小化具有两个连续超参数  和  的RL算法的损失，如图3所示。然而，随着随机搜索的动态变化，我们会动态更改超参数设置。在本例中，与在整个运行过程中保持超参数不变相比，动态更改超参数可以找到性能更好的超参数计划。尽管考虑到优化问题的非平稳性可以产生性能更好的智能体，但它给自动学习领域带来了有趣的新挑战。类PBT和进化方法是处理非平稳性的自然方法，尽管在超参数不需要动态更改的情况下，它们可能需要太多的资源。

最近，与PBT风格的算法相比，有了一系列额外的改进。Franke等人（2021年）提出了SEARL，并表明在off-policy环境下，智能体之间可以分享经验，从而显著提高效率。Zhang等人（2021年）提出了PBT-BT，其中包括PBT利用步骤的回溯组件，并在具有挑战性的MBRL设置上评估了该方法。最后，Dalibard和Jaderberg（2021）讨论了PBT利用阶段的贪婪性，并表明，通过维持子种群，并使用基于期望改善的指标，可以实现更高的长期表现。
开放性问题：PBT类型方法的一个缺点是相对的数据效率低下；因此，未来的工作可能会考虑跨试验共享数据的方法。当搜索空间超出了通常使用PBT调整的几个超参数时，这一点尤为重要。此外，种群规模目前是一个元参数，对结果有重大影响；到目前为止，很少有研究了解PBT在这种情况发生变化时的功效。
4.5 元梯度在线调整

元梯度为处理RL超参数的非平稳性提供了另一种方法。元梯度公式的灵感来自元学习方法，如MAML（Finn等人，2017），该方法利用梯度优化内部和外部循环。特别是，元梯度方法将其（可微）超参数的子集指定为元参数  ，例如自举、折扣因子和学习率。在内循环中，智能体使用固定  进行优化，采用梯度步骤最小化（通常固定）损失函数。在外循环中，通过采取梯度步骤来优化  ，以最小化外损失函数。每个特定的内外损失函数的选择定义了一个新的元梯度算法。
在最初的元梯度论文中，Xu等人（2018）使用了IMPALA（Espeholt等人，2018），并设置 $\eta=\{ \lambda\,, \gamma\}$ ，即自举超参数和折扣因子。在全套Atari游戏中进行评估时，meta-gradient版本比基线智能体提高了30%到80%，具体取决于使用的评估协议。这项工作被扩展到所有可微的IMPALA超参数与自校正演员评论家（STAC，Zahavy et al.（2020））。STAC引入了一个新的损失函数来处理各种超参数，这使得它能够进一步提高同一组Atari游戏以及机器人基准的性能。此外，Zahavy等人（2020年）还引入了一种将元梯度与辅助任务相结合的方法，产生了STACX，这一方法取得了进一步的进展。有趣的是，这些智能体学习了非平凡的超参数时间表，这些时间表无法手动调整，因为它们不是平滑变化的或通常用于手动调整的静态时间表。最近，Flennerhag等人（2021年）提出了自举元学习，它首先从元学习器那里自举一个目标，然后在一个有意义的空间中寻求匹配，从而有可能扩展元学习的视野。它通过动态调整多个超参数，在Atari基准上为无模型智能体提供了最先进的性能。
元梯度也被用于发现辅助任务（Veeriah等人，2019年）、发现选项（Veeriah等人，2021年）和在线学习RL目标，展示了强大的渐进性能（Xu等人，2020年）。重要的是，（Xu等人，2020年）表明，元学习目标比完全更新规则更有效，FRODO算法能够产生强大的渐近性能。最后，在NAS领域，可微架构搜索也可以被视为一种元梯度方法。DARTS算法（Liu等人，2019a）及其后续算法由于有效使用了基于梯度的搜索，在NAS社区也广受欢迎。最近，这种方法在RL中被证明是有效的，可以在具有挑战性的环境中找到有效的架构（Miao等人，2021；Akinola等人，2021）。
开放性问题：元梯度方法有两个众所周知的弱点。首先，它们通常依赖于元参数的良好初始化，这本身就是一个超参数优化问题。此外，当前的元梯度方法无法调整不可微超参数，例如优化器或激活函数的选择。尽管如此，它们仍然是最有效的方法之一，并提供了改进现有具有已知超参数的强算法的潜力。
4.6 黑盒在线调整

PBT和元梯度的优势在于动态适应超参数的能力。然而，这些并不是实现这一目标的唯一途径。事实上，人们还考虑了各种其他方法，从黑盒方法到在线学习启发的方法。本节重点介绍单智能体方法，以适应超参数（不一定）可微的动态设置。
自20世纪90年代以来，选择超参数的自适应方法一直备受关注。Sutton和Singh（1994）提出了TD算法中自适应加权方案的三种替代方法。Kearns和Singh（2000）推导了时序差分算法的误差上界，并利用这些上界推导了  的时间表。 Downey和Sanner（2010）使用贝叶斯模型平均来选择TD方法的  自举超参数。最近，White and White（2016）提出了  -贪心，将  作为状态的函数进行调整，并实现近似最优的偏差-方差权衡。Paul et al.（2019）提出了HOOF，该算法使用off-policy数据进行随机搜索，定期为策略梯度算法选择新的超参数。
有几种算法利用bandits来适应超参数。在分布式设置中，Schaul等人（2020年）提出采用学习进度概念作为反馈，调整若干行为超参数，例如agent的随机性程度。这一想法启发了Agent57（Badia等人，2020年），该算法自适应地从多个探索策略中进行选择，成为第一个在街机学习环境中的所有57款游戏上实现人类水平性能的算法（Bellemare等人，2012年）。其他方法也成功地利用bandit来选择探索程度（Ball等人，2020年）、对off-policy方法的乐观程度（莫斯科维茨等人，2021年）或增加智能体数量的多样性（Parker Holder等人，2020b）。最后，Riquelme等人（2019年）考虑使用检测TD估计偏差的学习置信区间，在时序差分（TD）学习和蒙特卡罗（MC）策略评估之间进行自适应切换。
开放性问题：这些方法的挑战之一是搜索空间有限，因为bandit算法必须能够探索所有臂。此外，大多数bandit算法都假设臂是独立的，这可能会通过删除算法设计者已知的信息而降低效率。
4.7 学习强化学习算法

学习RL算法的初始方法采用了学习如何学习的形式。Wang等人（2016年）和Duan等人（2016年）都使用元学习器更新配备RNN的智能体的权重，以学习相关RL任务的分布。前者的主要兴趣是结构化任务分布（例如，依赖的bandit），而后者则关注非结构化任务分布（例如，均匀分布的bandit问题和随机MDP）。Wang et al.（2016）甚至在一定程度上表现出了超出所遇到的准确训练分布的泛化。与此相关，Rakelly等人（2019）介绍了PEARL，它通过对策略所依赖的潜在环境变量进行推理来适应新任务。他们使用变分自动编码器（VAE）（Kingma&Welling，2014）来执行这种推断。Zintgraf等人（2020年）介绍了variBAD，它使用元学习来利用在相关任务中获得的知识，并在未知环境中进行近似推理，以近似Bayes最优行为。他们还使用VAE执行此类推断，但使用RNN作为编码器。
然而，最近人们对learning to learning或Meta-RL越来越感兴趣，Meta-RL旨在自动化RL损失函数的设计。一个关键的见解是，损失函数可以被视为一个可以从数据中学习的参数化对象。代替使用固定损失函数 $\mathcal{L}(\theta)$ ，可以构造一系列使用  参数化的损失函数  ，并通过优化替代损失  来寻求最大化期望回报  。接下来，我们将  分为两种情况：1） $\zeta$ 编码神经网络参数的神经损失函数，以及2）  编码计算图的符号损失函数。
神经损失函数：在这种情况下，损失函数是一个带参数  的神经网络，可通过ES或基于梯度的方法进行优化。例如，在进化策略梯度（Houthooft et al.，2018）中，内循环使用梯度下降来针对外循环提供的损失函数优化智能体的策略。该策略的性能由外部循环使用ES来演化损失的参数化。
基于梯度的方法与亚梯度方法密切相关，因为它们使用二阶导数来优化  。Bechtle等人（2020年）描述了具有学习损失函数的元学习的一般框架。如第4.5节所述，大多数亚梯度RL算法从人为设计的损失函数 $\mathcal{L}(\cdot)$ 开始，并用参数化  对其进行修改，以允许内循环和外循环程序。在内部循环中，通过 $\nabla_{\theta} \mathcal{L}(\theta ; \zeta)$ 得到 $\theta ^* (\zeta)$ ，可以视为  的函数。在外循环中，  的质量由 $\mathcal{L}\left(\theta^{*}(\zeta) ; \zeta\right)$ 测量，我们可以使用 $\nabla_{\zeta} \mathcal{L}\left(\theta^{*}(\zeta) ; \zeta\right)$ 通过梯度下降优化  。这种方法需要计算二阶信息，即 $\nabla_\zeta \nabla_\theta$ ，尽管流水线通常只需要Hessian向量积，但在流行的自动微分库（Jax（Bradbury等人，2018年）、Tensorflow（Abadi等人，2015年）、Pytorch（Paszke等人，2019年）中可以随时获得。
采用上述技术的示例包括MetaGenRL（Kirsch et al.，2020），它是DDPG参与者-批评家框架的扩展，在该框架中，批评家被训练为像往常一样最小化TD误差。元学习应用于策略更新。在原始的DDPG中，训练了一个额外的策略参数 $\phi$ ，以使值函数 $Q_{\theta}\left(s_{t}, \pi_{\phi}\left(s_{t}\right)\right)$ 最大化。在MetaGenRL中，这被用作外部损失 $Q_{\theta}\left(s_{t}, \pi_{\phi^{*}(\zeta)}\left(s_{t}\right)\right)$ ，内部损失 $\mathcal{L}(\phi ; \zeta)$ 被建模为LSTM。
在Learn Policy Gradient（LPG）（Oh等人，2020年）中，不是使用端到端的神经元损失函数，而是使用LSTM网络来提供目标策略 $\hat{\pi}$ 和目标值 $\hat{y}$ 。元损失和任务损失是手动定义的。Oh等人（2020年）表明，学习到的更新规则可以在性质不同的任务之间迁移。
符号损失函数：在这种情况下，损失函数表示为一个由预定义原语组成的符号表达式，类似于遗传编程。Alet等人（2020）使用领域特定语言（DSL）将好奇心模块表示为有向无环图（DAG）。好奇心模块提供内在奖励，这些奖励被添加到损失函数中，可以通过PPO进行优化。搜索空间包含52000个有效程序，并使用剪枝技术对其进行全面评估，例如在廉价环境中进行训练和预测算法性能（“meta-meta-RL”）。Co-Reyes等人（2021年）提出了一种DSL，将整个损失函数表示为DAG，该损失函数用于训练基于价值的智能体。与Alet等人（2020年）不同，DAG使用一种称为正则化进化的进化算法进行优化（Real等人，2019年）。
最后，关于RL算法的分类选择，Laroche和Féraud（2018a）使用了RL算法选择，其中，给定一个情景任务和一组off-policy RL算法，UCB bandit风格的元算法选择在下一集中控制哪个RL算法，以最大化期望回报。他们在一款Atari游戏中评估了他们的方法，其中一款大大提高了性能。
开放性问题：一般来说，很难理解神经损失函数的分析性质。开发工具对这些损失函数进行实证研究，对于解释其工作原理和理解其泛化能力至关重要。对于符号损失函数，搜索空间（所有可能的图）和搜索算法（例如，正则化进化）起着基础作用，但最优设计选择是什么还远未明确。
4.8 环境设计

环境设计是实现RL智能体学习自动化的重要组成部分。从课程学习（蒋等人，2021b；艾默等人，2021b；克林克等人，2020；Matiisen等人，2020年；Sukhbatar et al.，2018）到综合环境学习（Ferreira et al.，2021）和生成（Volz et al.，2018）到将课程学习与环境生成相结合（Bontrager&Togelius，2020；Wang et al.，2019，2020；Dennis et al.，2020），这里的目标是通过环境设计加快RL智能体的学习。
我们根据他们试图自动学习的环境组件（假设为第2节中定义的POMDP），组织执行自动环境设计的算法。这个组织也可以在图7中看到。

奖励函数, ：Zheng等人（2018年）提出了一种双层优化方法，该方法使用参数化的内在奖励函数学习策略梯度算法的奖励塑形。在内循环中，使用梯度下降更新智能体的参数以增加内在和外在奖励的总和，而在外循环中，使用梯度下降更新内在奖励的参数以仅增加外在奖励。Hu等人（2020年）还提出了一种双层优化方法，他们称之为BiPaRS（及其变体）。他们在内循环中使用PPO（Schulman等人，2017b）。此外，他们使用与用户定义的奖励塑形函数的（状态-动作相关）参数相关的元梯度来学习外循环中有用的奖励函数。Zou等人（2019年）提议在任务的分布上对潜在函数先验进行元学习（Ng等人，1999年）。受MAML（Finn et al.，2017）的启发，他们尝试将元学习的先验知识调整为最佳塑形函数（他们得出的结果等于最佳状态价值函数V）。Konidaris和Barto（2006）引入了一种函数，可以在任务之间保存价值信息，并充当智能体的内在塑形奖励。此函数的输入是状态空间的一部分，其含义在任务之间不会改变。该函数可以用作新观测到的状态的初始估计，并根据状态空间的某些部分进一步细化，这些部分的意义在任务之间确实会发生变化。Snel和Whiteson（2010）使用了一种进化特征选择方法，并表明该方法选择了适合塑形和价值函数的表示。他们的算法可以在多任务RL中找到塑形函数，而无需预先指定单独的表示。Marthi（2007）提出自动学习塑形奖励和分解奖励。给定一组状态和时间抽象，他们在原始MDP的基础上创建一个抽象的MDP，并根据他们推导的数学公式，使用收集的奖励样本学习奖励塑形。
Faust等人（2019年）通过进化搜索研究了学习多目标内在奖励对几种RL算法和基准测试的影响。结果表明，a）自动奖励搜索的效用与任务的难度相关，b）使用简单的稀疏任务目标（例如，在MuJoCo任务中旅行的距离）作为适应度函数，与使用默认但复杂的手动调整MuJoCo奖励相比，结果接近相同，c）奖励搜索更有可能产生比HP搜索更好的策略，该策略基于固定的训练预算和合理的超参数。
动作空间, $\mathcal{A}$ ：简化环境的动作空间可以使训练变得更容易、更快。实现这一点的两种主要方法是重复单个动作，以减少总体决策点的数量，或完全构建一个新的动作空间，由作为宏观动作或选项的基本动作组合组成。虽然手工制作在动作空间增强中很常见，但Sharma等人（2017）学习了给定动作的重复次数以及动作选择。Biedenkapp等人（2021年）通过将重复的数量限制在预测的动作本身上，提出了这一想法的延伸。在自动宏观动作发现中，Farahani和Mozayani（2019）表明，通过定义环境中要达到的子目标，可以将动作组合成合适的宏观动作；这是通过划分其转移图来实现的。选项与宏观动作类似，但不是执行一次宏观动作，而是每个选项都有自己的选项内部策略，直到终止函数延迟回智能体（Sutton等人，1999b）。培根等人（2017年）共同学习了这些选项的策略以及选项本身。Mankowitz等人（2018年）扩展了这一想法，还学习了对模型误差具有鲁棒性的选项。
观测空间, $\mathcal{O}$ ：Raileanu等人（2020年）提议使用UCB bandit选择图像变换（例如裁剪、旋转、翻转），并将其应用于观测。增强的和原始的观测被传递给正则化的演员-批评家智能体，后者使用它们来学习对变换不变的策略和价值函数。
多组件，无监督：我们在这里讨论改变环境中多个组件或整个环境本身的方法。这里最值得注意的是课程学习方法，它们通常会修改状态空间  和初始状态分布 $\rho$ 。由于修改了  ，它们自然也会改变 $P$ 和  ，因为对于这些函数，  是其域的一个组成部分。我们从寻找一般鲁棒的智能体的无监督方法开始，然后转向通常有目标或任务的有监督方法。
Wang et al.（2019）和Wang et al.（2020）提出了一种根据环境编码生成新环境的方法。这些环境是自动生成的，要么是随机突变（Wang等人，2019年），要么是新环境产生了显著不同的现有智能体排名（Wang等人，2020年）。这些生成新环境的方法被认为是为了创建一个多样化的环境，以便在课程中训练智能体。Lee等人（2020年）将该原理应用于四足机器人的控制，发现其鲁棒性显著提高。
Dennis等人（2020年）提出了一种新方法PAIRED，该方法还可以自动生成新的环境来创建课程。他们使用固定的环境编码。与Wang等人（2019年、2020年）不同，选择环境是为了最大化后悔度，后悔度是指主角智能体和另一个对手智能体之间的表现差异。这意味着鼓励对手提出主角目前无法解决的最简单环境，同时提供理论保证（在均衡状态下）主角遵循极小极大后悔策略。扩展PAIRED，Gur等人（2021年）提出了用于组合任务的环境组合设计（CoDE）。CoDE的环境生成模型构建了一系列组合任务和环境，这些任务和环境根据RL智能体的技能水平量身定制，并利用大量智能体，使训练智能体浏览web成为可能。Jiang等人（2021a）从不同的方向扩展了PAIRED的理论框架，表明使用优先级等级回放（PLR，Jiang等人（2021b））来管理随机采样的环境，而不是学习生成新环境，也是有效的。这种方法保持了PAIRED的理论特性，同时展示了更强的实证性能。
Bontrager和Togelius（2020）还使用了一个环境生成器（除了人类创造的环境）和一个演员-评论家智能体，通过选择最小化智能体期望价值的环境，合作和对抗地为智能体创建课程。
多组件，有监督：如果智能体的目标是解决一项特定任务，而不是总体上更加鲁棒，那么可以通过在课程中不断向这个目标推进一个简单版本的任务来支持（Narvekar等人，2020年）。为了将环境难度保持在适当的水平，进度通常与智能体当前的表现有关。一个著名的例子是OpenAI等人（2019年），他展示了使用机器人手解决魔方问题的可能性，方法是从几乎解决的魔方开始，并在智能体能够充分解决当前状态时，逐渐增加手和魔方的起始位置复杂性。Klingk等人（2020年）将同样的原理应用于多个物理模拟任务，使用价值估计作为进度标准。总的来说，价值估计方法对于RL来说是成功的，因为它们对环境挑战水平的近似值计算起来很便宜（Jiang等人，2015年；Zhang等人，2020年；Eimer等人，2021b）。它们是Whlke等人（2020）提出的起始状态课程生成分类法中的一个重要类别。学生-教师课程学习方法也可以创造新的任务变体，例如通过使用GAN，尽管它们只会随着训练过程中智能体的改善而逐渐增加其分布的复杂性（Florensa等人，2018年；Matiisen等人，2020年；Turchetta等人，2020年）。我们甚至可以通过使用自博弈来让智能体挑战具有更难对付的对手，从而将难度曲线引入到不变的环境中（da Silva et al.，2019）。一种典型的方法是不对称自博弈（ASP，Sukhbatar et al.（2018）），它建议使用两个智能体：“Alice”，她通过采取一系列的动作来提出新的任务；“Bob”，他必须撤销或重复它们。ASP也被证明在具有挑战性的机器人操作任务方面非常有效（OpenAI等人，2021年）。最后，AMIGo（Campero等人，2021年）和APT Gen Fang等人（2021年）都考虑了固定任务的设置，随着学生能力的提高，目标变得越来越难实现。
Ferreira等人（2021年）提出了一种学习给定目标环境的转移函数和奖励函数的方法，以便更有效地训练智能体。他们将其定义为一个双层优化问题，并在外循环中优化学习环境（一个NN），以最大化内循环中智能体的回报。他们表明，他们的合成环境不仅可以更有效地替代昂贵的目标环境，而且对其进行训练还可以减少训练步骤的数量。
开放性问题：环境设计有许多不同的方法，目前尚不清楚哪种方法能带来最大的性能提升。这就增加了以下可能性：a）在单一方法中使用其中几种方法，并研究对性能的影响，以及在多大程度上收益是互补的；b）在共同基准上评估方法。不幸的是，目前还缺乏统一的框架和共享的基准。为了进一步在环境中实现全自动发展，像Romac等人（2021年）的更多努力将有助于鼓励更密切的合作和更好的可比性。
4.9 混合方法

不可避免地，有些方法不属于单一类别。事实上，许多方法试图利用不同方法的优势，我们称之为混合方法。在本节中，我们将这些混合方法定义为使用表3中多种方法的方法。
BOHB（Falkner et al.，2018）将Hyperband与BO结合起来，以确定使用哪种预算评估多少配置，但它用BO取代了每次Hyperband迭代开始时随机选择的配置，在BO中，模型根据迄今为止评估的配置进行训练。BOHB还可以高效地利用并行资源。BOHB被用于优化Gym的cartpole摆动任务中PPO的超参数，以及Gym的RNA设计问题（Runge et al.，2019）。
DEHB（Awad et al.，2021）将Hyperband与差分进化（DE）相结合，在AutoRL任务上优化PPO算法的超参数比随机搜索（参见本文图9）快5倍，在其他超参数优化任务上则高达三个数量级。Chiang等人（2019）将进化搜索与奖励塑形相结合，为导航任务自动选择奖励函数和神经架构。他们学习了一个更稳健的策略和一个超参数配置，可以更好地推广到未知的环境。
Jaderberg等人（2019年）在游戏 Quake III Arena 中，仅使用像素和游戏分数作为输入，在捕获旗帜模式下实现了人类水平的表现。为此，他们的FTW智能体在外部优化循环中联合学习奖励塑形系数和超参数。他们使用PBT的双层优化过程，内循环优化IMPALA（Espeholt等人，2018年）RL智能体。外循环是进化的，维持着这样一个独立的RL智能体种群，这些智能体种群在随机生成的环境中通过数千个并行匹配同时训练。每个智能体学习自己的内部奖励信号和世界的丰富表现。最近，另一个大型项目通过一种引导域随机化的形式，使用环境设计和PBT，在大型模拟环境中产生“一般能力”的智能体（Team等人，2021年）。这项工作试图实现一个更开放的系统，通过该系统，智能体可以学习玩各种各样的游戏，从而产生多种创新，例如generational training，允许智能体在PBT设置中跨不同奖励函数转移行为。
基于种群的bandits（PB2 Parker Holder et al.（2020a））方法寻求将PBT和BO的想法结合起来。它将PBT的探索步骤描述为batch GP-bandit优化问题，并使用置信度上界（UCB）采集函数来选择新配置。在一系列RL问题中，它被证明比PBT更具样本效率，但在更大的问题中，或在超过几个超参数的情况下，它仍然没有经过测试。此外，PB2最近被扩展到处理混合输入超参数（连续和分类）（Parker Holder et al.，2021），但在探索内核选择、改进时变机制或进一步扩展（例如神经架构）方面的工作很少。
开放性问题：除了上述每个小节的开放性问题外，混合方法还面临如何最好地结合各个方法的其他开放性问题。由于组合许多方法并在其中搜索最佳组合的计算需求可能非常大，杂交方法需要能够有效地修剪此类组合的搜索空间。
5 未来方向

在本节中，我们将重点介绍几个具体领域，我们认为这些领域将是未来工作特别富有成果的途径。
在这项综述中，我们强调了AutoRL在训练期间动态调整配置的方法的成功。然而，据我们所知，许多现代最先进算法的超参数的非平稳性尚未得到广泛研究。因此，通常不清楚哪些超参数需要动态优化，哪些超参数最好静态优化。此外，超参数的影响是否在不同环境中保持不变，或者不同的超参数对于不同的任务是否重要（Eimer et al.，2021a），以及为什么会这样，这在很大程度上仍然是一个悬而未决的问题。迄今为止，仅针对静态配置程序提出了分析此类影响的方法（Hutter等人，2014年；Fawcett&Hoos，2016年；Biedenkapp等人，2017年，2018年；van Rijn&Hutter，2018年），尚未在RL中广泛使用。
用于（非）监督学习的经典超参数优化（Hutter et al.，2019）在搜索性能良好的配置时只考虑单个数据集。类似地，当优化RL智能体的超参数时，通常只考虑单个环境。事实上，本文讨论的几乎所有优化方法都只考虑单个环境。鉴于本文中讨论的RL智能体的敏感性（Henderson et al.，2018；Andrychowicz et al.，2021；Engstrom等人，2020年），预计发现的设置无法迁移到其他环境中。然而，最近人们对训练能够处理多个（同质）环境的RL智能体越来越感兴趣。虽然智能体通常在所有Atari游戏中使用单一配置（Mnih等人，2013年），但要找到在各种环境下工作的可靠配置仍然是一个挑战（Eimer等人，2021a）。AutoRL方法可以跨环境调整RL智能体，属于算法配置（Hutter et al.，2009）方法的一类，这些方法寻求找到更好的参数来提高一般算法性能。这种方法能够为一组环境找到性能良好且鲁棒的超参数（Eggensperger等人，2019年）。最近，有人提出了评估协议，考虑了RL算法在一组环境中的性能（Jordan等人，2020年；Patterson等人，2021年），这可能对该领域的未来工作有用。
与算法配置问题相关，算法选择（Rice，1976）可用于选择用于学习的RL算法（Laroche&Féraud，2018b）。据我们所知，到目前为止，还没有任何AutoRL方法探索算法选择和算法配置的交叉点，即每实例算法配置（PIAC，Xu等人（2010年），Kadioglu等人（2010年））。在这个框架中，选择器可以从性能良好的配置组合中选择一个配置，并决定将其中的哪一个用于当前的环境。
一个重要的研究领域是更严格地理解设计选择对性能的影响。如果我们能够理解每个组件如何与其他组件交互，那么我们可以选择更合适的组合，或者设计搜索空间来解释这种依赖性。这可能来自实证调查或理论分析。事实上，最近的工作，如费杜斯等人（2020年）、奥班多·塞隆和卡斯特罗（2020年）以及安德里乔维奇等人（2021年），为这一领域奠定了基础，但仍有大量工作有待完成。此外，AutoML社区的超参数重要性方法和分析工具（Hutter等人，2014年；Fawcett&Hoos，2016年；Biedenkapp等人，2017年，2018年；van Rijn&Hutter，2018年）尚未在AutoRL中探索。越来越多的人关注这一领域可能会对RL的其他领域产生深远的连锁反应，尤其是AutoRL。
另一个关键的未来方向是评估AutoRL方法的明确基准。到目前为止，许多工作都考虑了基线方法的调整组件，通常是在OpenAI Gym（Brockman等人，2016）的连续控制任务上，或在Arcade学习环境（Bellemare等人，2012）的离散环境中。然而，人们越来越重视使用测试泛化的环境。Whiteson等人（2009年）是最早提出在环境分布上测试智能体的人之一，流行的现代基准是OpenAI Procgen（Cobbe等人，2020年）。事实上，这种环境已用于AutoRL（Miao等人，2021；Parker Holder等人，2021）。其他程序生成的环境包括MiniGrid（Chevalier Boisvert et al.，2018）、NetHack（Küttler et al.，2020）、MiniHack（Samvelyan et al.，2021）、Griddy（Bamford et al.，2020）或Minel（Guss et al.，2019）。CARL（Benjamins等人，2021年）提供了类似的环境复杂性，但不是使用程序生成，而是通过地板摩擦等上下文特征定义环境分布。此外，在更有针对性的合成任务中考虑AutoRL可能会很有成效。Yu等人（2019）介绍了Meta World，这是一个基准，提出了50种不同的机器人操作任务及其变体，以实现此类学习。王等人（2021）是另一个复杂的基准，它还提出了RL智能体的元分布，可用于执行元RL以确定潜在的因果结构。Rajan和Hutter（2019年）以及Osband等人（2020年）提供了具有潜在因果结构的简单环境，可用于以低得多的成本进行类似实验，但代价是环境的复杂性。通过这种分布进行学习不仅可以使RL智能体对变化具有鲁棒性，还可以使他们在分布的环境中执行小样本学习。事实上，考虑AutoRL进行泛化（Song et al.，2019）仍然没有得到充分的研究，在这种情况下，为外循环定义合适的任务成为一个挑战。
除了到目前为止的讨论之外，本综述中的大部分工作都涉及单智能体RL。然而，许多现实世界的系统实际上本质上是多智能体（Foerster，2018）。例如，考虑一下需要与他人合作才能在道路上安全行驶的自动驾驶汽车。在这类问题中使用RL时，还有一个额外的挑战是如何参数化不同的智能体：是以集中还是分散的方式进行训练，同时还要设计奖励函数和算法来捕获单个智能体动作的影响。
最近的另一个研究领域是离线RL，在离线RL中，智能体必须从静态经验数据集中泛化到在线模拟器或真实世界环境。这一领域的研究仍处于起步阶段，然而，它已经包含了大量多样的方法，同时也带来了新的挑战。例如，对于AutoRL算法来说，获得真实世界的策略回报是一个挑战，因此我们通常必须使用off-policy评估（Precup等人，2000）。在这种设置中，可能有使用更多“传统”AutoML方法的空间，或者可能需要全新的方法。
6 结论

本文介绍了AutoRL，讨论了各种自动化RL训练流水线的方法。实际上，与监督学习（通常是一个开环一步过程）不同，RL是一个完整的闭环系统。因此，讨论的每一个组件都可能对其他组件产生影响，如果我们想作为更广泛系统的一部分，对我们的智能体进行端到端的训练，最终将需要一个整体解决方案。由于各种来源（如策略、环境）的影响，RL中的评估几乎总是随机的，并且噪声（可能比监督学习更）大，因此RL中的挑战更加复杂，这对任何形式的自动调整都是一个挑战。然而，我们在这项综述中提出了各种有希望的方向，这些方向有助于克服挑战，并可能在未来几年提供改进。很明显，AutoRL作为一个领域正在走向成熟，令人兴奋的可能性就在前方。

		自动登录	找回密码
密码			立即注册

【强化学习】AutoRL论文总结

本帖子中包含更多资源