强化学习——策略梯度与Actor-Critic算法 - 第2页 - 技术讨论 Technology Answers - Unity开发者联盟

Arzie100 发表于 2021-12-4 16:14

你好请问下如果用TD_error 近似Advantage function 的话，那优势函数不是趋于0了嘛

xiangtingsl 发表于 2021-12-4 16:17

引入baseline之后不是A2C算法了吗？看了不同博主的文章，感觉有点蒙圈

pc8888888 发表于 2021-12-4 16:24

策略学习中，对于连续动作，actor网络的输出是高斯分布的均值和方差吗？

kyuskoj 发表于 2021-12-4 16:27

博主我关于Compatible Function Approximation Theorem有个疑问，如果满足了第二个条件（最小化MSE），不就相当于Q函数估计等于Q值了吗，这时不就是无偏估计了吗，为什么还需要第一个条件

页: 1 [2]

Unity开发者联盟's Archiver