Imitation Learning

  • 模仿学习又称 learning by demonstration, apprenticeship learning
  • 有一个专家展示如何完成任务
    • 机器也可以与环境互动,但是无法获得奖励。
    • 在有些任务中,很难定义奖励。
    • 人工制定的奖励会导致不受控制的行为
  • 两种方法:
    • Behavior cloning
    • Inverse reinforcement learning (inverse optimal control)

6.1 Behavior Cloning

  行为克隆其实就是监督学习。

  • 主要问题:如果机器的能力有限,它可能会选择错误的行为来复制。
  • 有些行为必须复制,但有些可以忽略。
    • 监督学习同等对待所有错误

Mismatch

  • 在监督学习中,我们期望训练和训练数据有同样的分布
  • 在行为克隆中:
    • 训练:\((s,a) \sim \hat{\pi}\)(expert)
       actor采取的动作\(a\)会影响\(s\)的分布
    • 测试:\((s',a') \sim \pi^*\)(actor cloning expert)
       如果\(\hat{\pi} = \pi^*\),那么\((s,a)\)和\((s',a')\)来自同一个分布
       如果\(\hat{\pi}\)和\(\pi^*\)不一样,那么\(s\)和\(s'\)的分布可能会差很多。

6.2 Inverse Reinforcement Learning

6.2.1 Framework of IRL

6.2.2 Third person imitation learning

Bradly C. Stadie, Pieter Abbeel, Ilya Sutskever, "Third-Person Imitation Learning", arXiv preprint, 2017.

Recap: Sentence Generation & Chat-bot