深度强化学习

本笔记主要参考台湾大学李宏毅教授的强化学习课程。

强化学习的场景

强化学习中state是agent观察到的环境的状态，所以可以是部分可观的。

机器学习 = 寻找一个函数

强化学习中只有少数的状态可以得到reward，如何在这样的情况下发掘正确的action是一个难点。强化学习从经验中学习，需要大量的学习过程。

例：space incader

强化学习的性质（难点）：

延迟奖励（需要有远见）
agent的行为会影响后续接收到的数据（需要学会探索）

强化学习概览

GitHub

main