强化学习纲要
本笔记主要参考周博磊在香港中文大学开的强化学习纲要一课,并结合了Richard S. Sutton和Andrew G. Barto的《Reinforcement Learning: An Introduction》(2th edition)中的部分内容。
| Topic | Resources | |
|---|---|---|
| Lecture1 | Overview (课程概括与RL基础) | Youtube(part1, part2), B站(上集, 下集) |
| Lecture2 | Markov Decision Process (马尔科夫决策过程) | Youtube(part1, part2), B站(上集, 下集) |
| Lecture3 | Model-free Prediction and Control (无模型的预测和控制) | Youtube(part1, part2), B站(上集, 下集) |
| Lecture4 | Value Function Approximation (价值函数近似) | Youtube(part1, part2), B站(上集, 下集) |
| Lecture5 | Policy Optimization: Foundation (策略优化基础篇) | Youtube(part1, part2), B站(上集, 下集) |
| Lecture6 | Policy Optimization: State of the art (策略优化进阶篇) | Youtube(part1, part2), B站(上集, 下集) |
| Lecture7 | Model-based RL (基于环境模型的RL) | Youtube, B站 |
| Lecture8 | Imitation Learning (模仿学习) | Youtube, B站 |
| Lecture9 | Distributed systems for RL (分布式系统) | Youtube, B站 |
| Lecture10 | RL in a nutshell (课程结局篇) | Youtube, B站 |
| Bonus 1 | DeepMind's AlphaStar Explained (剖析星际争霸AI) by Zhenghao Peng | Youtube, B站 |
需要注意的是,周老师的课程中使用的符号、公式等和Richard S. Sutton的书中不完全一样。另外,周老师的课虽然内容划分很清晰,对很多思想的解释也很形象,但是可能相对节奏较快,零基础的同学(比如本人)想要跟上有一定难度。shuhuai008的白板推导系列课程可能更加适合新手,概念讲解和公式推导都很清晰,课程顺序、符号表示都是与参考书对应的,非常适合参照学习。目前,这门课程还在更新中(在我开始更新这份笔记的时候)。
关于深度强化学习部分,可以参考《Deep Reinforcemnet Learning Hands-on》一书。
