尽管RL取得了一些令人印象深刻的成就,但许多标题结果依赖于经过大量调优的实现,这些实现无法推广到预期的领域之外。事实上,RL算法已被证明对超参数和深层神经网络的结构极其敏感(Henderson et al.,2018;Andrychowicz et al.,2021;Engstrom等人,2020年),而有越来越多的额外设计选择,如智能体的目标(Hessel等人,2019年)和更新规则(Oh等人,2020年)。对于人类来说,一次手动优化如此多的设计选择既繁琐又昂贵,甚至可能容易出错。在机器学习(ML)的其他领域,自动化机器学习(AutoML,Hutter等人(2019))也取得了重大成功。然而,这些方法尚未对RL产生重大影响,考虑到环境和算法的多样性以及RL问题的非平稳性,应用通常具有挑战性。
这项综述的目的是介绍自动强化学习(AutoRL)领域,作为一套自动化不同程度的RL流水线的方法。AutoRL解决了各种各样的挑战:一方面,RL算法的脆弱性阻碍了在新领域的应用,尤其是那些从业者缺乏大量资源来搜索最佳配置的领域。在许多情况下,为一个完全未知的问题手动查找一组中等强度的超参数可能会花费高昂的成本。AutoRL已经被证明可以在这种情况下帮助解决重要问题,例如设计RNA(Runge等人,2019年)。另一方面,对于那些拥有更多计算能力的人来说,增加算法的灵活性显然可以提高性能(Xu等人,2020年;Zahavy等人,2020年;Jaderberg等人,2017年)。这已经在著名的AlphaGo智能体中得到了展示,通过使用贝叶斯优化,该智能体得到了显著改进(Chen等人,2018年)。
早在20世纪80年代,可以被认为是AutoRL算法的方法就被证明是有效的(Barto&Sutton,1981)。然而,最近AutoML的流行导致了更先进技术的新生应用(Runge et al.,2019;Chiang et al.,2019)。与此同时,几十年来,进化界一直在进化神经网络及其权重(Stanley&Miikkulainen,2002),其方法的灵感来源于那些被证明对现代RL有效的方法(Jaderberg et al.,2017)。此外,最近元学习的流行导致了一系列试图自动化RL过程的工作(Houthooft等人,2018年;Xu等人,2018年;Kirsch等人,2020年)。
在本文中,我们试图提供这些方法的分类。通过这样做,我们希望通过思想的交叉传粉,开辟未来的工作领域,同时也向RL研究人员介绍一套技术,以提高他们算法的性能。我们相信AutoRL在帮助强化学习的潜在影响方面发挥着重要作用,无论是在开放式研究还是实际应用中,这项综述可能会成为那些希望利用其潜力的人的起点。
此外,我们希望将对AutoML感兴趣的研究人员更广泛地吸引到AutoRL社区,因为AutoRL带来了独特的挑战。特别是,RL受到非平稳性的影响,因为智能体正在训练的数据是当前策略的函数。此外,AutoRL还包括针对RL问题的环境和算法设计。我们认为,这些挑战将需要今后开展大量工作,因此本文将概述一些有待解决的问题。
2 符号和背景
In almost all cases, RL considers the problem of finding a policy parameterized by (e.g., the weights of a neural network) to maximize cumulative reward:
一旦我们能够定义要解决的MDP(或POMDP),下一个问题就是算法的选择。在RL已经表现出强大性能的情况下,选择似乎相当简单。例如,在玩一款新的Atari游戏时,DQN的一种变体可以表现良好。对于MuJoCo(Todorov等人,2012年)的连续控制任务,演员-评论家算法,如SAC(Haarnoja等人,2018年)可能是一个强有力的基线。然而,即使对于这些标准基准,RL智能体也很脆弱(Henderson et al.,2018;Andrychowicz et al.,2021;Engstrom et al.,2020),而且这种选择并不像看起来那么简单。对于一个全新的问题,挑战要大得多,并且阻止了RL在现实世界问题中的应用。由于缺乏该领域的专业知识或巨大的计算资源,许多用例可能会导致次优解,因为在某些不相关的问题上成功地使用了任意算法。
要解决使用哪种算法的问题,有多种可能的途径。我们可以使用“学习如何学习”的方法(Andrychowicz等人,2016年;Chen等人,2017年),在这种方法中,元学习器可以学习一种能够在一系列相关任务中表现出色的智能体。智能体将在一个任务的分布上进行训练,并在测试时学习在rollout期间识别任务。例如,这种识别能力可以通过递归神经网络(RNN)来实现,该网络根据策略的状态推出策略,从而对手头的任务进行编码。
我们可以学习目标函数本身,每个目标函数定义一个新算法。以最普遍的形式, 是给定环境中最大化的目标。在DRL的背景下,这个目标在模型参数方面是不可微的;因此,在实践中使用智能体目标,这对学习动态有很大影响。事实上,DRL的许多进步源于目标函数的改进,例如double Q-learning(van Hasselt等人,2016年)、distributional value functions(Bellemare等人,2017年)等等(Lillicrap等人,2016年;Schulman等人,2017a;Haarnoja等人,2018年)。这些算法在由人类专家设计的目标函数上存在根本性差异。即使对已知目标函数进行较小的调整也会产生很大的影响,例如Munchausen-DQN(Vieillard et al.,2020)和CQL(Kumar et al.,2020b),但这些调整需要大量的理论分析和经验实验来验证其有效性。
人们还可以根据多重评估在现有算法之间做出分类选择。在AutoML中,这种算法选择可以通过算法选择实现自动化(Rice,1976)。在算法选择中,一个元学习模型用于决定在当前环境中使用哪种算法。所谓的选择器是根据过去观察到的性能和环境特征进行训练的。虽然这减轻了对专家知识的需求,但它可能需要许多资源来收集足够的性能数据,以学习性能良好的选择器。我们将在第4.7节中讨论与学习算法相关的工作。
3.3 我们使用哪种神经架构?
机器学习的许多重大突破都是通过引入新的神经架构实现的(Krizhevsky等人,2012年;He等人,2016年;Vaswani等人,2017年)。为了使这一发现自动化,神经架构搜索领域(NAS)(Elsken等人,2019年;Lindauer& Hutter,2020)在过去几年中已成为一个活跃的研究领域。与监督学习相比,RL中神经结构的设计很少受到关注。对于来自本体状态的任务,通常使用两个或三个隐层的前馈MLP,而许多从像素学习的作品仍然使用原始DQN论文中使用的卷积神经网络(CNN)架构,称为“Nature CNN”。最近,利用IMPALA论文(Espeholt et al.,2018)中提出的网络已变得司空见惯,该网络现在被称为“IMPALA-CNN”。虽然IMPALA-CNN已被证明是一个更强大的视觉和泛化架构(Cobbe等人,2020年,2019年),但几乎没有对替代方案进行研究,尽管有些研究侧重于在策略中使用注意力模块(Parisotto等人,2020年;Tang等人,2020年;Zambaldi等人,2019年)。
与IMPALA-CNN一起,有证据表明,更深、更密集的网络、使用不同的非线性以及正则化器(如批正则化器)可以改善一系列操作和移动任务的当前方法(Sinha等人,2020;Song等人,2020),甚至对于MLP设置也是如此。Kumar等人(2020a)进一步阐述了基于价值的方法参数化不足的缺点。总的来说,对于架构设计选择及其在RL领域的好处,在概念上的理解(和吸收)仍然很少。虽然Cobbe等人(2020年、2019年)在RL泛化中显示出过参数化和批量归一化(Ioffe&Szegedy,2015年)有效果,但尚不清楚它们是否可以用监督学习理论来解释,即隐式正则化(Neyshabur,2017年;Neyshabur等人,2015年)、神经切线核(Jacot等人,2018年;Arora等人,2019年),复杂性度量(Neyshabur等人,2019年)和景观平滑度(Santurkar等人,2018年)。鉴于可以使用许多不同的方法来解决RL中的神经结构,我们将在不同的章节中讨论试图解决RL中神经结构的工作。
3.4 我们选择什么超参数?
定义任务并选择(或学习)算法和架构后,剩下的最后一个挑战是选择超参数。AutoRL研究最广泛的领域是RL算法对超参数的敏感性。事实上,在一项最著名的研究中,Henderson et al.(2018)发现,许多最成功的最新算法在超参数、实现甚至种子方面都很脆弱,而Islam et al.(2017)指出,鉴于超参数对性能的影响,比较不同论文中的基准算法具有挑战性。
更容易理解的超参数之一是折扣因子 ,它决定了回报的时间尺度。Prokhorov和Wunsch(1997年)以及Bertsekas和Tsitiklis(1996年)发现,较低的折扣银子会导致更快的收敛,并有导致短视策略的潜在风险。Singh和Dayan(1996)探讨了TD学习对步长和eligibility trace参数的选择比较敏感。
在具体算法方面,Andrychowicz等人(2021年)对 on-policy 参与者-批评家算法的设计选择进行了广泛调查。他们发现损失函数、架构甚至初始化方案在性能上存在显著差异,这些选择之间存在显著依赖性。Obando Ceron和Castro(2020)也探讨了off-policy RL的设计选择,强调了MSE和Huber损失函数,同时也评估了n-step回报的重要性,Fedus等人和Rowland等人(2020年)也进行了研究。Bas Serrano等人(2021年)表明,通过使用logistic Bellmann误差函数确保Q-学习的凸性,性能得到了改善。此外,Liu等人(2021b)表明,正则化子的选择也会显著影响性能。
最后,除了旗鼓相当的超参数之外,还有一些重要的代码级实现细节。Henderson等人(2018年)发现了这一点,并表明同一算法的不同代码库产生了明显不同的结果。此外,Engstrom等人(2020年)研究了流行的策略梯度算法(PPO、Schulman等人(2017a)和TRPO Schulman等人(2015))的实现细节,发现奖励标准化等细节在RL性能中起着关键作用。由于该领域是AutoRL研究最多的部分,我们将在第4.1-4.6节中讨论超参数优化问题的各种不同解决方法。
4 自动化强化学习的方法
接下来涉及的一组方法是那些固有的序列决策概念。贝叶斯优化(BO,Mockus(1974),Jones et al.(1998),Brochu et al.(2010))是迄今为止最流行的方法之一,用于工业应用(Golovin et al.,2017;Balandat et al.,2020;Perrone et al.,2021)和各种科学实验(Frazier&Wang,2015;Hernández Lobato et al.,2017;Li et al.,2018;格里菲斯和埃尔南德斯·洛巴托,2020年;Tran等人,2021;van Bueren等人,2021年)。对于RL应用,BO最突出的用途之一是调整AlphaGo的超参数,包括其核心蒙特卡罗树搜索(MCTS)(Browne等人,2012)超参数和时间控制设置。这使得AlphaGo的获胜率在自博弈中从50%提高到了66.5%(Chen等人,2018年)。在图4中,我们展示了RL情况下贝叶斯优化的一般概念。
由于相当大的优化开销,标准的BO方法需要昂贵的黑盒评估,比如训练一个ML算法到最后以观察精度。这种训练方式既耗时又昂贵,因为每次设置可能需要数小时甚至数天的时间。调整RL超参数的标准BO的另一种选择是利用不同的保真度(Cutler等人,2014年;Kandasamy等人,2016年),例如不同数量的种子和世代数。特别是,最近的工作试图利用RL应用中随时可用的内部信息来改进优化,我们将在下面介绍。
环境设计是实现RL智能体学习自动化的重要组成部分。从课程学习(蒋等人,2021b;艾默等人,2021b;克林克等人,2020;Matiisen等人,2020年;Sukhbatar et al.,2018)到综合环境学习(Ferreira et al.,2021)和生成(Volz et al.,2018)到将课程学习与环境生成相结合(Bontrager&Togelius,2020;Wang et al.,2019,2020;Dennis et al.,2020),这里的目标是通过环境设计加快RL智能体的学习。
我们根据他们试图自动学习的环境组件(假设为第2节中定义的POMDP),组织执行自动环境设计的算法。这个组织也可以在图7中看到。
奖励函数, :Zheng等人(2018年)提出了一种双层优化方法,该方法使用参数化的内在奖励函数学习策略梯度算法的奖励塑形。在内循环中,使用梯度下降更新智能体的参数以增加内在和外在奖励的总和,而在外循环中,使用梯度下降更新内在奖励的参数以仅增加外在奖励。Hu等人(2020年)还提出了一种双层优化方法,他们称之为BiPaRS(及其变体)。他们在内循环中使用PPO(Schulman等人,2017b)。此外,他们使用与用户定义的奖励塑形函数的(状态-动作相关)参数相关的元梯度来学习外循环中有用的奖励函数。Zou等人(2019年)提议在任务的分布上对潜在函数先验进行元学习(Ng等人,1999年)。受MAML(Finn et al.,2017)的启发,他们尝试将元学习的先验知识调整为最佳塑形函数(他们得出的结果等于最佳状态价值函数V)。Konidaris和Barto(2006)引入了一种函数,可以在任务之间保存价值信息,并充当智能体的内在塑形奖励。此函数的输入是状态空间的一部分,其含义在任务之间不会改变。该函数可以用作新观测到的状态的初始估计,并根据状态空间的某些部分进一步细化,这些部分的意义在任务之间确实会发生变化。Snel和Whiteson(2010)使用了一种进化特征选择方法,并表明该方法选择了适合塑形和价值函数的表示。他们的算法可以在多任务RL中找到塑形函数,而无需预先指定单独的表示。Marthi(2007)提出自动学习塑形奖励和分解奖励。给定一组状态和时间抽象,他们在原始MDP的基础上创建一个抽象的MDP,并根据他们推导的数学公式,使用收集的奖励样本学习奖励塑形。
Faust等人(2019年)通过进化搜索研究了学习多目标内在奖励对几种RL算法和基准测试的影响。结果表明,a)自动奖励搜索的效用与任务的难度相关,b)使用简单的稀疏任务目标(例如,在MuJoCo任务中旅行的距离)作为适应度函数,与使用默认但复杂的手动调整MuJoCo奖励相比,结果接近相同,c)奖励搜索更有可能产生比HP搜索更好的策略,该策略基于固定的训练预算和合理的超参数。 动作空间, :简化环境的动作空间可以使训练变得更容易、更快。实现这一点的两种主要方法是重复单个动作,以减少总体决策点的数量,或完全构建一个新的动作空间,由作为宏观动作或选项的基本动作组合组成。虽然手工制作在动作空间增强中很常见,但Sharma等人(2017)学习了给定动作的重复次数以及动作选择。Biedenkapp等人(2021年)通过将重复的数量限制在预测的动作本身上,提出了这一想法的延伸。在自动宏观动作发现中,Farahani和Mozayani(2019)表明,通过定义环境中要达到的子目标,可以将动作组合成合适的宏观动作;这是通过划分其转移图来实现的。选项与宏观动作类似,但不是执行一次宏观动作,而是每个选项都有自己的选项内部策略,直到终止函数延迟回智能体(Sutton等人,1999b)。培根等人(2017年)共同学习了这些选项的策略以及选项本身。Mankowitz等人(2018年)扩展了这一想法,还学习了对模型误差具有鲁棒性的选项。 观测空间, :Raileanu等人(2020年)提议使用UCB bandit选择图像变换(例如裁剪、旋转、翻转),并将其应用于观测。增强的和原始的观测被传递给正则化的演员-批评家智能体,后者使用它们来学习对变换不变的策略和价值函数。 多组件,无监督:我们在这里讨论改变环境中多个组件或整个环境本身的方法。这里最值得注意的是课程学习方法,它们通常会修改状态空间 和初始状态分布 。由于修改了 ,它们自然也会改变 和 ,因为对于这些函数, 是其域的一个组成部分。我们从寻找一般鲁棒的智能体的无监督方法开始,然后转向通常有目标或任务的有监督方法。
Wang et al.(2019)和Wang et al.(2020)提出了一种根据环境编码生成新环境的方法。这些环境是自动生成的,要么是随机突变(Wang等人,2019年),要么是新环境产生了显著不同的现有智能体排名(Wang等人,2020年)。这些生成新环境的方法被认为是为了创建一个多样化的环境,以便在课程中训练智能体。Lee等人(2020年)将该原理应用于四足机器人的控制,发现其鲁棒性显著提高。
Dennis等人(2020年)提出了一种新方法PAIRED,该方法还可以自动生成新的环境来创建课程。他们使用固定的环境编码。与Wang等人(2019年、2020年)不同,选择环境是为了最大化后悔度,后悔度是指主角智能体和另一个对手智能体之间的表现差异。这意味着鼓励对手提出主角目前无法解决的最简单环境,同时提供理论保证(在均衡状态下)主角遵循极小极大后悔策略。扩展PAIRED,Gur等人(2021年)提出了用于组合任务的环境组合设计(CoDE)。CoDE的环境生成模型构建了一系列组合任务和环境,这些任务和环境根据RL智能体的技能水平量身定制,并利用大量智能体,使训练智能体浏览web成为可能。Jiang等人(2021a)从不同的方向扩展了PAIRED的理论框架,表明使用优先级等级回放(PLR,Jiang等人(2021b))来管理随机采样的环境,而不是学习生成新环境,也是有效的。这种方法保持了PAIRED的理论特性,同时展示了更强的实证性能。
Bontrager和Togelius(2020)还使用了一个环境生成器(除了人类创造的环境)和一个演员-评论家智能体,通过选择最小化智能体期望价值的环境,合作和对抗地为智能体创建课程。 多组件,有监督:如果智能体的目标是解决一项特定任务,而不是总体上更加鲁棒,那么可以通过在课程中不断向这个目标推进一个简单版本的任务来支持(Narvekar等人,2020年)。为了将环境难度保持在适当的水平,进度通常与智能体当前的表现有关。一个著名的例子是OpenAI等人(2019年),他展示了使用机器人手解决魔方问题的可能性,方法是从几乎解决的魔方开始,并在智能体能够充分解决当前状态时,逐渐增加手和魔方的起始位置复杂性。Klingk等人(2020年)将同样的原理应用于多个物理模拟任务,使用价值估计作为进度标准。总的来说,价值估计方法对于RL来说是成功的,因为它们对环境挑战水平的近似值计算起来很便宜(Jiang等人,2015年;Zhang等人,2020年;Eimer等人,2021b)。它们是Whlke等人(2020)提出的起始状态课程生成分类法中的一个重要类别。学生-教师课程学习方法也可以创造新的任务变体,例如通过使用GAN,尽管它们只会随着训练过程中智能体的改善而逐渐增加其分布的复杂性(Florensa等人,2018年;Matiisen等人,2020年;Turchetta等人,2020年)。我们甚至可以通过使用自博弈来让智能体挑战具有更难对付的对手,从而将难度曲线引入到不变的环境中(da Silva et al.,2019)。一种典型的方法是不对称自博弈(ASP,Sukhbatar et al.(2018)),它建议使用两个智能体:“Alice”,她通过采取一系列的动作来提出新的任务;“Bob”,他必须撤销或重复它们。ASP也被证明在具有挑战性的机器人操作任务方面非常有效(OpenAI等人,2021年)。最后,AMIGo(Campero等人,2021年)和APT Gen Fang等人(2021年)都考虑了固定任务的设置,随着学生能力的提高,目标变得越来越难实现。
Ferreira等人(2021年)提出了一种学习给定目标环境的转移函数和奖励函数的方法,以便更有效地训练智能体。他们将其定义为一个双层优化问题,并在外循环中优化学习环境(一个NN),以最大化内循环中智能体的回报。他们表明,他们的合成环境不仅可以更有效地替代昂贵的目标环境,而且对其进行训练还可以减少训练步骤的数量。 开放性问题:环境设计有许多不同的方法,目前尚不清楚哪种方法能带来最大的性能提升。这就增加了以下可能性:a)在单一方法中使用其中几种方法,并研究对性能的影响,以及在多大程度上收益是互补的;b)在共同基准上评估方法。不幸的是,目前还缺乏统一的框架和共享的基准。为了进一步在环境中实现全自动发展,像Romac等人(2021年)的更多努力将有助于鼓励更密切的合作和更好的可比性。
4.9 混合方法
不可避免地,有些方法不属于单一类别。事实上,许多方法试图利用不同方法的优势,我们称之为混合方法。在本节中,我们将这些混合方法定义为使用表3中多种方法的方法。
BOHB(Falkner et al.,2018)将Hyperband与BO结合起来,以确定使用哪种预算评估多少配置,但它用BO取代了每次Hyperband迭代开始时随机选择的配置,在BO中,模型根据迄今为止评估的配置进行训练。BOHB还可以高效地利用并行资源。BOHB被用于优化Gym的cartpole摆动任务中PPO的超参数,以及Gym的RNA设计问题(Runge et al.,2019)。
DEHB(Awad et al.,2021)将Hyperband与差分进化(DE)相结合,在AutoRL任务上优化PPO算法的超参数比随机搜索(参见本文图9)快5倍,在其他超参数优化任务上则高达三个数量级。Chiang等人(2019)将进化搜索与奖励塑形相结合,为导航任务自动选择奖励函数和神经架构。他们学习了一个更稳健的策略和一个超参数配置,可以更好地推广到未知的环境。
Jaderberg等人(2019年)在游戏 Quake III Arena 中,仅使用像素和游戏分数作为输入,在捕获旗帜模式下实现了人类水平的表现。为此,他们的FTW智能体在外部优化循环中联合学习奖励塑形系数和超参数。他们使用PBT的双层优化过程,内循环优化IMPALA(Espeholt等人,2018年)RL智能体。外循环是进化的,维持着这样一个独立的RL智能体种群,这些智能体种群在随机生成的环境中通过数千个并行匹配同时训练。每个智能体学习自己的内部奖励信号和世界的丰富表现。最近,另一个大型项目通过一种引导域随机化的形式,使用环境设计和PBT,在大型模拟环境中产生“一般能力”的智能体(Team等人,2021年)。这项工作试图实现一个更开放的系统,通过该系统,智能体可以学习玩各种各样的游戏,从而产生多种创新,例如generational training,允许智能体在PBT设置中跨不同奖励函数转移行为。
基于种群的bandits(PB2 Parker Holder et al.(2020a))方法寻求将PBT和BO的想法结合起来。它将PBT的探索步骤描述为batch GP-bandit优化问题,并使用置信度上界(UCB)采集函数来选择新配置。在一系列RL问题中,它被证明比PBT更具样本效率,但在更大的问题中,或在超过几个超参数的情况下,它仍然没有经过测试。此外,PB2最近被扩展到处理混合输入超参数(连续和分类)(Parker Holder et al.,2021),但在探索内核选择、改进时变机制或进一步扩展(例如神经架构)方面的工作很少。 开放性问题:除了上述每个小节的开放性问题外,混合方法还面临如何最好地结合各个方法的其他开放性问题。由于组合许多方法并在其中搜索最佳组合的计算需求可能非常大,杂交方法需要能够有效地修剪此类组合的搜索空间。
5 未来方向
在本节中,我们将重点介绍几个具体领域,我们认为这些领域将是未来工作特别富有成果的途径。
在这项综述中,我们强调了AutoRL在训练期间动态调整配置的方法的成功。然而,据我们所知,许多现代最先进算法的超参数的非平稳性尚未得到广泛研究。因此,通常不清楚哪些超参数需要动态优化,哪些超参数最好静态优化。此外,超参数的影响是否在不同环境中保持不变,或者不同的超参数对于不同的任务是否重要(Eimer et al.,2021a),以及为什么会这样,这在很大程度上仍然是一个悬而未决的问题。迄今为止,仅针对静态配置程序提出了分析此类影响的方法(Hutter等人,2014年;Fawcett&Hoos,2016年;Biedenkapp等人,2017年,2018年;van Rijn&Hutter,2018年),尚未在RL中广泛使用。
用于(非)监督学习的经典超参数优化(Hutter et al.,2019)在搜索性能良好的配置时只考虑单个数据集。类似地,当优化RL智能体的超参数时,通常只考虑单个环境。事实上,本文讨论的几乎所有优化方法都只考虑单个环境。鉴于本文中讨论的RL智能体的敏感性(Henderson et al.,2018;Andrychowicz et al.,2021;Engstrom等人,2020年),预计发现的设置无法迁移到其他环境中。然而,最近人们对训练能够处理多个(同质)环境的RL智能体越来越感兴趣。虽然智能体通常在所有Atari游戏中使用单一配置(Mnih等人,2013年),但要找到在各种环境下工作的可靠配置仍然是一个挑战(Eimer等人,2021a)。AutoRL方法可以跨环境调整RL智能体,属于算法配置(Hutter et al.,2009)方法的一类,这些方法寻求找到更好的参数来提高一般算法性能。这种方法能够为一组环境找到性能良好且鲁棒的超参数(Eggensperger等人,2019年)。最近,有人提出了评估协议,考虑了RL算法在一组环境中的性能(Jordan等人,2020年;Patterson等人,2021年),这可能对该领域的未来工作有用。
与算法配置问题相关,算法选择(Rice,1976)可用于选择用于学习的RL算法(Laroche&Féraud,2018b)。据我们所知,到目前为止,还没有任何AutoRL方法探索算法选择和算法配置的交叉点,即每实例算法配置(PIAC,Xu等人(2010年),Kadioglu等人(2010年))。在这个框架中,选择器可以从性能良好的配置组合中选择一个配置,并决定将其中的哪一个用于当前的环境。
一个重要的研究领域是更严格地理解设计选择对性能的影响。如果我们能够理解每个组件如何与其他组件交互,那么我们可以选择更合适的组合,或者设计搜索空间来解释这种依赖性。这可能来自实证调查或理论分析。事实上,最近的工作,如费杜斯等人(2020年)、奥班多·塞隆和卡斯特罗(2020年)以及安德里乔维奇等人(2021年),为这一领域奠定了基础,但仍有大量工作有待完成。此外,AutoML社区的超参数重要性方法和分析工具(Hutter等人,2014年;Fawcett&Hoos,2016年;Biedenkapp等人,2017年,2018年;van Rijn&Hutter,2018年)尚未在AutoRL中探索。越来越多的人关注这一领域可能会对RL的其他领域产生深远的连锁反应,尤其是AutoRL。
另一个关键的未来方向是评估AutoRL方法的明确基准。到目前为止,许多工作都考虑了基线方法的调整组件,通常是在OpenAI Gym(Brockman等人,2016)的连续控制任务上,或在Arcade学习环境(Bellemare等人,2012)的离散环境中。然而,人们越来越重视使用测试泛化的环境。Whiteson等人(2009年)是最早提出在环境分布上测试智能体的人之一,流行的现代基准是OpenAI Procgen(Cobbe等人,2020年)。事实上,这种环境已用于AutoRL(Miao等人,2021;Parker Holder等人,2021)。其他程序生成的环境包括MiniGrid(Chevalier Boisvert et al.,2018)、NetHack(Küttler et al.,2020)、MiniHack(Samvelyan et al.,2021)、Griddy(Bamford et al.,2020)或Minel(Guss et al.,2019)。CARL(Benjamins等人,2021年)提供了类似的环境复杂性,但不是使用程序生成,而是通过地板摩擦等上下文特征定义环境分布。此外,在更有针对性的合成任务中考虑AutoRL可能会很有成效。Yu等人(2019)介绍了Meta World,这是一个基准,提出了50种不同的机器人操作任务及其变体,以实现此类学习。王等人(2021)是另一个复杂的基准,它还提出了RL智能体的元分布,可用于执行元RL以确定潜在的因果结构。Rajan和Hutter(2019年)以及Osband等人(2020年)提供了具有潜在因果结构的简单环境,可用于以低得多的成本进行类似实验,但代价是环境的复杂性。通过这种分布进行学习不仅可以使RL智能体对变化具有鲁棒性,还可以使他们在分布的环境中执行小样本学习。事实上,考虑AutoRL进行泛化(Song et al.,2019)仍然没有得到充分的研究,在这种情况下,为外循环定义合适的任务成为一个挑战。
除了到目前为止的讨论之外,本综述中的大部分工作都涉及单智能体RL。然而,许多现实世界的系统实际上本质上是多智能体(Foerster,2018)。例如,考虑一下需要与他人合作才能在道路上安全行驶的自动驾驶汽车。在这类问题中使用RL时,还有一个额外的挑战是如何参数化不同的智能体:是以集中还是分散的方式进行训练,同时还要设计奖励函数和算法来捕获单个智能体动作的影响。
最近的另一个研究领域是离线RL,在离线RL中,智能体必须从静态经验数据集中泛化到在线模拟器或真实世界环境。这一领域的研究仍处于起步阶段,然而,它已经包含了大量多样的方法,同时也带来了新的挑战。例如,对于AutoRL算法来说,获得真实世界的策略回报是一个挑战,因此我们通常必须使用off-policy评估(Precup等人,2000)。在这种设置中,可能有使用更多“传统”AutoML方法的空间,或者可能需要全新的方法。
6 结论