Arzie100 发表于 2021-12-4 16:14

你好请问下如果用TD_error 近似Advantage function 的话,那优势函数不是趋于0了嘛

xiangtingsl 发表于 2021-12-4 16:17

引入baseline之后不是A2C算法了吗?看了不同博主的文章,感觉有点蒙圈

pc8888888 发表于 2021-12-4 16:24

策略学习中,对于连续动作,actor网络的输出是高斯分布的均值和方差吗?

kyuskoj 发表于 2021-12-4 16:27

博主我关于Compatible Function Approximation Theorem有个疑问,如果满足了第二个条件(最小化MSE),不就相当于Q函数估计等于Q值了吗,这时不就是无偏估计了吗,为什么还需要第一个条件
页: 1 [2]
查看完整版本: 强化学习——策略梯度与Actor-Critic算法