3.2 基本思路_深度强化学习核心算法与应用-QQ阅读女生现言网

前面提到有模型的强化学习是先学习环境模型，再基于此模型进行策略的学习。假设已经有了一个完美的环境模型，需要怎么做呢？这就涉及最优控制与规划方面的内容。

强化学习的目标是要最大化智能体在环境中获得的累计奖赏J，而智能体在环境中经历的一条轨迹（trajectory）可以描述为

在有模型的强化学习中，我们先在环境中探索收集样本，之后利用一些监督学习的方法来学习环境的模型，比如我们收集了下面的一些样本，就可以利用如线性回归、神经网络的方法来对状态和奖赏值做拟合，构建当前环境模型，此过程可见图3.1。

在整体上，一个最简单的有模型方法可以由如下几个步骤组成：

（1）用一个基础的策略（比如随机策略）探索环境，收集样本D=｛（s，a，s′）i｝；

图3.1

（2）从上面得到的样本中构建环境模型f（s，a）来最小化

（3）基于f（s，a），使用一些方法来选择相应的动作。

这样的过程在某些场景中能够发挥作用，比如一些经典的机器人控制任务。第（1）步所使用的基础策略非常重要，因为它决定了环境探索的空间有多大。在很多任务中，探索环境的策略所获得的样本与真实环境中的样本分布不匹配的问题往往非常严重，因此需要让模型多次学习。

一个简单的想法是通过执行模型来收集新的数据，再利用这些数据更新模型。也就是说，在上述第（3）步后，增加第（4）步，即收集执行这些动作后得到的样本，加入D中，并反复执行第（2）到第（4）步。经过这样的过程，显然可以收集更多的样本，能够对环境有更好的拟合。

总体而言，在有模型的强化学习中，我们有对环境的动态转移关系的模型，就可以用此来推导此时做各种动作的奖赏情况，从而得到最佳的动作，也就是说可以对策略进行优化，并最终收敛到最好的策略。