找回密码
 立即注册
楼主: acecase

强化学习——策略梯度与Actor-Critic算法

[复制链接]
发表于 2021-12-4 16:14 | 显示全部楼层
你好请问下如果用TD_error 近似Advantage function 的话,那优势函数不是趋于0了嘛
发表于 2021-12-4 16:17 | 显示全部楼层
引入baseline之后不是A2C算法了吗?看了不同博主的文章,感觉有点蒙圈
发表于 2021-12-4 16:24 | 显示全部楼层
策略学习中,对于连续动作,actor网络的输出是高斯分布的均值和方差吗?
发表于 2021-12-4 16:27 | 显示全部楼层
博主我关于Compatible Function Approximation Theorem有个疑问,如果满足了第二个条件(最小化MSE),不就相当于Q函数估计等于Q值了吗,这时不就是无偏估计了吗,为什么还需要第一个条件
懒得打字嘛,点击右侧快捷回复 【右侧内容,后台自定义】
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Unity开发者联盟 ( 粤ICP备20003399号 )

GMT+8, 2024-11-25 18:32 , Processed in 0.088707 second(s), 23 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表