强化学习纲要

  本笔记主要参考周博磊在香港中文大学开的强化学习纲要一课,并结合了Richard S. Sutton和Andrew G. Barto的《Reinforcement Learning: An Introduction》(2th edition)中的部分内容。

  Topic Resources
Lecture1 Overview (课程概括与RL基础) Youtube(part1, part2), B站(上集, 下集)
Lecture2 Markov Decision Process (马尔科夫决策过程) Youtube(part1, part2), B站(上集, 下集)
Lecture3 Model-free Prediction and Control (无模型的预测和控制) Youtube(part1, part2), B站(上集, 下集)
Lecture4 Value Function Approximation (价值函数近似) Youtube(part1, part2), B站(上集, 下集)
Lecture5 Policy Optimization: Foundation (策略优化基础篇) Youtube(part1, part2), B站(上集, 下集)
Lecture6 Policy Optimization: State of the art (策略优化进阶篇) Youtube(part1, part2), B站(上集, 下集)
Lecture7 Model-based RL (基于环境模型的RL) Youtube, B站
Lecture8 Imitation Learning (模仿学习) Youtube, B站
Lecture9 Distributed systems for RL (分布式系统) Youtube, B站
Lecture10 RL in a nutshell (课程结局篇) Youtube, B站
Bonus 1 DeepMind's AlphaStar Explained (剖析星际争霸AI) by Zhenghao Peng Youtube, B站

  需要注意的是,周老师的课程中使用的符号、公式等和Richard S. Sutton的书中不完全一样。另外,周老师的课虽然内容划分很清晰,对很多思想的解释也很形象,但是可能相对节奏较快,零基础的同学(比如本人)想要跟上有一定难度。shuhuai008的白板推导系列课程可能更加适合新手,概念讲解和公式推导都很清晰,课程顺序、符号表示都是与参考书对应的,非常适合参照学习。目前,这门课程还在更新中(在我开始更新这份笔记的时候)。

  关于深度强化学习部分,可以参考《Deep Reinforcemnet Learning Hands-on》一书。