Imitation Learning

模仿学习又称 learning by demonstration, apprenticeship learning
有一个专家展示如何完成任务
- 机器也可以与环境互动，但是无法获得奖励。
- 在有些任务中，很难定义奖励。
- 人工制定的奖励会导致不受控制的行为
两种方法：
- Behavior cloning
- Inverse reinforcement learning (inverse optimal control)

6.1 Behavior Cloning

行为克隆其实就是监督学习。

主要问题：如果机器的能力有限，它可能会选择错误的行为来复制。
有些行为必须复制，但有些可以忽略。
- 监督学习同等对待所有错误

Mismatch：

在监督学习中，我们期望训练和训练数据有同样的分布
在行为克隆中：
- 训练：\((s,a) \sim \hat{\pi}\)（expert）
  actor采取的动作\(a\)会影响\(s\)的分布
- 测试：\((s',a') \sim \pi^*\)（actor cloning expert）
  如果\(\hat{\pi} = \pi^*\)，那么\((s,a)\)和\((s',a')\)来自同一个分布
  如果\(\hat{\pi}\)和\(\pi^*\)不一样，那么\(s\)和\(s'\)的分布可能会差很多。

6.2 Inverse Reinforcement Learning

6.2.1 Framework of IRL

6.2.2 Third person imitation learning

Bradly C. Stadie, Pieter Abbeel, Ilya Sutskever, "Third-Person Imitation Learning", arXiv preprint, 2017.

Recap: Sentence Generation & Chat-bot

GitHub

main