The Concept of Two-Scale State Representation and Policy Representation
为了解决上述问题,我们提出了基于双尺度表征的策略构建(Two-scale representation-based policy construction)。在此基础上,我们维护和优化EA群体和RL的策略。具体来说。EA和RL Agent的策略都是由一个共享的非线性状态表征 Z_{\phi}和一个独立的线性策略表征 W 组成。Agent i 通过结合共享状态表征和策略表征做出决策:
整体优化流程如上图所示,具体来说,我们每次在由共享状态表征Z_{\phi}构建的线性策略空间 \Pi_{\phi} 中进行策略搜索,对线性策略进行优化。优化后我们对共享状态表征进行优化,优化的方向为对于所有个体(包括EA和RL)都有益的方向,从而达到有效的知识共享,构建对于所有个体都有利的策略空间。如此循环迭代实现知识的高效传递与策略的快速优化。下面我们介绍如何进行共享表征的优化,以及如何在线性空间如何更加高效地演化。 Optimizing the Shared State Representation for A Superior Policy Space