强化学习纲要

本笔记主要参考周博磊在香港中文大学开的强化学习纲要一课，并结合了Richard S. Sutton和Andrew G. Barto的《Reinforcement Learning: An Introduction》(2th edition)中的部分内容。

	Topic	Resources
Lecture1	Overview (课程概括与RL基础)	Youtube(part1, part2), B站(上集, 下集)
Lecture2	Markov Decision Process (马尔科夫决策过程)	Youtube(part1, part2), B站(上集, 下集)
Lecture3	Model-free Prediction and Control (无模型的预测和控制)	Youtube(part1, part2), B站(上集, 下集)
Lecture4	Value Function Approximation (价值函数近似)	Youtube(part1, part2), B站(上集, 下集)
Lecture5	Policy Optimization: Foundation (策略优化基础篇)	Youtube(part1, part2), B站(上集, 下集)
Lecture6	Policy Optimization: State of the art (策略优化进阶篇)	Youtube(part1, part2), B站(上集, 下集)
Lecture7	Model-based RL (基于环境模型的RL)	Youtube, B站
Lecture8	Imitation Learning (模仿学习)	Youtube, B站
Lecture9	Distributed systems for RL (分布式系统)	Youtube, B站
Lecture10	RL in a nutshell (课程结局篇)	Youtube, B站
Bonus 1	DeepMind's AlphaStar Explained (剖析星际争霸AI) by Zhenghao Peng	Youtube, B站

需要注意的是，周老师的课程中使用的符号、公式等和Richard S. Sutton的书中不完全一样。另外，周老师的课虽然内容划分很清晰，对很多思想的解释也很形象，但是可能相对节奏较快，零基础的同学（比如本人）想要跟上有一定难度。shuhuai008的白板推导系列课程可能更加适合新手，概念讲解和公式推导都很清晰，课程顺序、符号表示都是与参考书对应的，非常适合参照学习。目前，这门课程还在更新中（在我开始更新这份笔记的时候）。

关于深度强化学习部分，可以参考《Deep Reinforcemnet Learning Hands-on》一书。