有些状态很难预测,但是没有什么价值,比如风吹草动,所以还要想办法引导agent。可以利用一个Feature Ext来提取状态的特征,利用network2来预测\(\hat{a}_t\),使其尽可能的接近实际采取的\(a\),这样可以过滤掉与采取行动无关的一些状态。
Reverse curriculum generation