进化算法通过维护以自适应方式生成的大量解样本来优化函数。 从随机的初始种群开始,这些算法集在先前的精英样本附近产生新的个体。 这些算法中的一些是基于启发式的临时优化方法,例如遗传算法,而另一些则基于估计精英样本的分布(例如估计分布算法(EDA))。 交叉熵方法(CEM)和协方差矩阵自适应进化策略(CMA-ES)是此类中最知名的算法。比如 在最简单的CEM形式中,我们假定基本分布是多元高斯分布,并对其概率密度函数(PDF)的均值和协方差矩阵进行调整,以增加在下一次迭代中采样更多类似于精英个体的可能性。
OpenAI ES for RL
图7.(a)CEM-RL和(b)ERL算法的体系结构(图片来源:CEM-RL论文)
CEM-RL方法(Pourchot&Sigaud,2019)将交叉熵方法(CEM)与DDPG或TD3相结合。这里的CEM与上述简单的高斯ES几乎一样,因此可以使用CMA-ES替换相同的函数。 CEM-RL建立在进化强化学习(ERL;Khadka & Tumer, 2018)的框架上(标准EA算法选择并进化了一批actors,然后将过程中产生的rollout经验添加到答复缓冲区中对RL-actor and RL-critic网络进行训练)。
工作流程:
https://medium.com/beyond-intelligence/reinforcement-learning-or-evolutionary-strategies-nature-has-a-solution-both-8bc80db539b3的观众评论:
在我看来,Interleaved reinforcement learning and evolutionary simulation for RL 是最有前途的方法之一,希望一旦我研究了并行化组件,就会发表一篇不错的文章:)