深度强化学习

  本笔记主要参考台湾大学李宏毅教授强化学习课程


强化学习的场景

  强化学习中state是agent观察到的环境的状态,所以可以是部分可观的。

机器学习 = 寻找一个函数

  强化学习中只有少数的状态可以得到reward,如何在这样的情况下发掘正确的action是一个难点。强化学习从经验中学习,需要大量的学习过程。

例:space incader

强化学习的性质(难点)

  • 延迟奖励(需要有远见)
  • agent的行为会影响后续接收到的数据(需要学会探索)
强化学习概览