深度强化学习
强化学习中state是agent观察到的环境的状态,所以可以是部分可观的。
强化学习中只有少数的状态可以得到reward,如何在这样的情况下发掘正确的action是一个难点。强化学习从经验中学习,需要大量的学习过程。
强化学习的性质(难点):
- 延迟奖励(需要有远见)
- agent的行为会影响后续接收到的数据(需要学会探索)
强化学习中state是agent观察到的环境的状态,所以可以是部分可观的。
强化学习中只有少数的状态可以得到reward,如何在这样的情况下发掘正确的action是一个难点。强化学习从经验中学习,需要大量的学习过程。
强化学习的性质(难点):