强化学习——策略梯度与Actor-Critic算法

Arzie100 · 发表于 2021-12-4 16:14

你好请问下如果用TD_error 近似Advantage function 的话，那优势函数不是趋于0了嘛

xiangtingsl · 发表于 2021-12-4 16:17

引入baseline之后不是A2C算法了吗？看了不同博主的文章，感觉有点蒙圈

pc8888888 · 发表于 2021-12-4 16:24

策略学习中，对于连续动作，actor网络的输出是高斯分布的均值和方差吗？

kyuskoj · 发表于 2021-12-4 16:27

博主我关于Compatible Function Approximation Theorem有个疑问，如果满足了第二个条件（最小化MSE），不就相当于Q函数估计等于Q值了吗，这时不就是无偏估计了吗，为什么还需要第一个条件

		自动登录	找回密码
密码			立即注册