|
首先强推一波觉得不错的李宏毅老师, 课程视频在B站:
(强推)李宏毅2021春机器学习课程_哔哩哔哩_bilibili以下的资料都来自李宏毅老师的视频, 关于题主问题的是在上面视频的第73P: 传送门:(强推)李宏毅2021春机器学习课程_哔哩哔哩_bilibili . 我在这里就简单做个整理:
环境(Env)指你想要让机器去交互的一个可互动环境, 交互的方式是函数调用.
环境的观察状态(Observation或state)是从环境提取出来的一组数据, 这组数据反映了Env的所有(能让机器观察)的状态. 能让机器看到多少状态是你来决定的, 一般是尽可能多的信息.
操作(Action)是从智能体发出的对Env的操作指令, 这个指令也是高度抽象过的, 比如小车的例子里的Action就只有一个变量, 0=不动, 1=向前推, 2=向后推.
智能体(Agent)你可以理解为代表人工智能或者算法的整合体, 它包含了神经网络以及和训练过程相关的一些函数. 里面比较复杂, 推荐拿我加过注释的资料看看, 地址在文末.
以上几个概念都是在训练神经网络的过程中抽象出来的, 流程大致是这样, Agent首先去观察环境的状态, 把这个状态交给神经网络就能预测出一个Action, 拿这个Action去和环境交互, 交互的结果就是产生了下一个状态. 如此不断循环. 在这个循环之中, Agent内部就会比对这个Action和产生的下一个状态来学习. 拿DQN举例, 给环境发一个值为1的Action, 看看结果是什么, 记录下来, 学习一下; 在下一次循环, 发一个值为2的Action, 看看结果是什么再记录下来, 学习一下, ....... 一直到学习结束, 这个神经网络及训练出来了. (文字只能解释到这样了, 再具体就要看代码了)
以上内容部分来自我的文章, 拿到资料会有代码和中文注释:
Coollen.MMX:在量化交易中使用神经网络算法(四) DQN初探 |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|