Arzie100 发表于 2021-12-4 16:14
你好请问下如果用TD_error 近似Advantage function 的话,那优势函数不是趋于0了嘛xiangtingsl 发表于 2021-12-4 16:17
引入baseline之后不是A2C算法了吗?看了不同博主的文章,感觉有点蒙圈pc8888888 发表于 2021-12-4 16:24
策略学习中,对于连续动作,actor网络的输出是高斯分布的均值和方差吗?kyuskoj 发表于 2021-12-4 16:27
博主我关于Compatible Function Approximation Theorem有个疑问,如果满足了第二个条件(最小化MSE),不就相当于Q函数估计等于Q值了吗,这时不就是无偏估计了吗,为什么还需要第一个条件
页:
1
[2]