强化学习中state是agent观察到的环境的状态,所以可以是部分可观的。
强化学习中只有少数的状态可以得到reward,如何在这样的情况下发掘正确的action是一个难点。强化学习从经验中学习,需要大量的学习过程。
例:space incader
强化学习的性质(难点):