降低深度强化学习研究的计算成本

Doris232 · 发表于 2022-2-18 13:51

人们普遍认为，将传统强化学习与深度神经网络相结合的深度强化学习研究的巨大增长始于开创性的DQN算法的发表。这篇论文展示了这种组合的潜力，表明它可以产生可以非常有效地玩许多 Atari 2600 游戏的代理。从那时起，已经有几种方法建立在原始 DQN 的基础上并对其进行了改进。流行的Rainbow 算法结合了这些最新进展，以在ALE 基准测试中实现最先进的性能. 然而，这一进步带来了非常高的计算成本，不幸的副作用是扩大了拥有充足计算资源的人和没有计算资源的人之间的差距。
在“重温彩虹：促进更具洞察力和包容性的深度强化学习研究”中，将在ICML 2021 上发表，我们在一组中小型任务上重新审视了该算法。我们首先讨论与 Rainbow 算法相关的计算成本。我们探索了如何通过较小规模的实验得出关于结合各种算法组件的好处的相同结论，并将该想法进一步推广到在较小的计算预算上进行的研究如何提供有价值的科学见解。
Rainbow 的成本 Rainbow

计算成本高的一个主要原因是，学术出版的标准通常需要在大型基准测试上评估新算法，例如ALE，其中包含 57 个 Atari 2600 游戏，强化学习代理可能会学习玩这些游戏。对于典型的游戏，使用Tesla P100 GPU训练模型大约需要五天时间. 此外，如果想要建立有意义的置信界限，通常至少执行五次独立运行。因此，在全套 57 款游戏上训练 Rainbow 需要大约 34,200 个 GPU 小时（或 1425 天）才能提供令人信服的经验性能统计数据。换句话说，这样的实验只有在能够在多个 GPU 上并行训练时才可行，这对于较小的研究小组来说是望而却步的。
重温 Rainbow

在最初的 Rainbow 论文中，我们评估了向原始 DQN 算法添加以下组件的效果：双 Q 学习、优先体验重放、决斗网络、多步学习、分布式 RL和噪声网络。
我们评估了一组四个经典控制环境，可以在 10-20 分钟内完成完全训练（而 ALE 游戏需要 5 天）：

我们研究了将每个组件独立添加到 DQN 以及从完整 Rainbow 算法中删除每个组件的效果。正如在最初的 Rainbow 论文中一样，我们发现，总的来说，这些算法中的每一个的添加确实改进了对基础 DQN 的学习。然而，我们也发现了一些重要的差异，例如分布式 RL——通常被认为是一个积极的加法——本身并不总是产生改进。实际上，与 Rainbow 论文中的 ALE 结果相反，在经典控制环境中，分布式 RL 仅在与另一个组件结合时才会产生改进。

我们还在MinAtar 环境中重新运行了 Rainbow 实验，该环境由一组五个小型化的 Atari 游戏组成，并发现了定性相似的结果。MinAtar 游戏的训练速度大约比评估原始 Rainbow 算法的常规 Atari 2600 游戏快 10 倍，但仍具有一些有趣的方面，例如游戏动态和基于像素的代理输入。因此，它们提供了一个具有挑战性的中级环境，介于经典控制和完整的 Atari 2600 游戏之间。
综合来看，我们发现我们的结果与原始 Rainbow 论文的结果一致——每个算法组件产生的影响可能因环境而异。如果我们建议使用一个单一的代理来平衡不同算法组件的权衡，我们的 Rainbow 版本可能与原始版本一致，因为将所有组件组合在一起会产生更好的整体代理。然而，在不同算法组件的变化中有重要的细节值得更彻底的调查。
超越彩虹

当 DQN 被引入时，它利用了Huber 损失和RMSProp 优化器。研究人员在构建 DQN 时使用这些相同的选择是一种常见的做法，因为他们的大部分精力都花在了其他算法设计决策上。本着重新评估这些假设的精神，我们重新审视了DQN在低成本、小规模经典控制和 MinAtar 环境中使用的损失函数和优化器。我们使用Adam 优化器进行了一些初步实验，它是最近最流行的优化器选择，结合更简单的损失函数，均方误差损失(MSE)。由于在开发新算法时经常忽略优化器和损失函数的选择，我们惊讶地发现我们观察到所有经典控制和 MinAtar 环境的显着改进。
因此，我们决定在完整的 ALE 套件（60 个 Atari 2600 游戏）上评估将两个优化器（RMSProp 和 Adam）与两个损失（Huber 和 MSE）相结合的不同方式。我们发现 Adam+MSE 是比 RMSProp+Huber 更好的组合。

此外，在比较各种优化器-损失组合时，我们发现使用 RMSProp 时，Huber 损失的表现往往优于 MSE（由实线和橙色虚线之间的差距说明）。

结论

在有限的计算预算下，我们能够在高层次上重现Rainbow 论文的发现并发现新的有趣现象。显然，重新审视某事比首先发现它容易得多。然而，我们开展这项工作的目的是论证中小型环境实证研究的相关性和重要性。我们相信，这些计算密集度较低的环境非常适合对新算法的性能、行为和复杂性进行更关键和更彻底的分析。
我们绝不是呼吁减少对大规模基准的重视。我们只是敦促研究人员将小规模环境视为他们调查中的宝贵工具，并且审阅者避免忽视专注于小规模环境的实证工作。通过这样做，除了减少我们的实验对环境的影响之外，我们还将更清楚地了解研究前景，并减少来自多样化且通常资源不足的社区的研究人员的障碍，这只会有助于使我们的社区和科学进步更加强大.
更新说明：优先更新微信公众号“雨夜的博客”，后更新博客，之后才会陆续分发到各个平台，如果先提前了解更多，请关注微信公众号“雨夜的博客”。
博客来源：雨夜的博客

用户名		自动登录	找回密码
密码			立即注册

降低深度强化学习研究的计算成本

本帖子中包含更多资源

浏览过的版块