Critic的输出值取决于actor的好坏。
1. Monte-Carlo based approach
Critic观察\(\pi\)如何玩游戏。看到某个状态后,一直到episode结束所累计的奖励。
2. Temporal-difference approach
有的时候episode时间太长,把所有的学习都推迟到结束的时候太慢了。
MC v.s. TD
Another way to use critic.
给定\(Q^{\pi}(s,a)\),找到一个新的比\(\pi\)"更好"的actor \(\pi'\)
\(\pi'\)没有其它参数,它由\(Q\)决定。
对连续动作\(a\)不适用
为什么\(\pi'(s) = \text{arg}\max_a Q^{\pi}(s,a)\)一定有\(V^{\pi'}(s) \ge V^{\pi}(s)\)?
在实际训练中,更新目标如果不断变动会造成更新困难,所以需要用一个固定网络作为目标网络。实际操作过程中,一般会更新\(N\)次后更新一次目标网络。
如果\(Q\)高估了\(a\),那么\(a\)会被选中,\(Q'\)会给出它的正确的值。
如果\(Q'\)高估了某个动作,那个动作是不会被\(Q\)选中的。
Hado V . Hasselt, "Double Q-learning", NIPS 2010.
Hado van Hasselt, Arthur Guez, David Silver, "Deep Reinforcement Learning with Double Q-learning", AAAI 2016.
Ziyu Wang, Tom Schaul, Matteo Hessel, Hado van Hasselt, Marc Lanctot, Nando de Freitas, "Dueling Network Architectures for Deep Reinforcement Learning", arXiv preprint, 2015.