一、什么是强化学习
强化学习是一类算法,是让计算机实现从一开始完全随机的进行操作,通过不断地尝试,从错误中学习,最后找到规律,学会了达到目的的方法。这就是一个完整的强化学习过程。让计算机在不断的尝试中更新自己的行为,从而一步步学习如何操自己的行为得到高分。
它主要包含四个元素,Agent、环境状态、行动、奖励,强化学习的目标就是获得最多的累计奖励。
让我们想象一下比赛现成:
计算机有一位虚拟的裁判,这个裁判他不会告诉你如何行动,如何做决定,他为你做的事只有给你的行为打分,最开始,计算机完全不知道该怎么做,行为完全是随机的,那计算机应该以什么形式学习这些现有的资源,或者说怎么样只从分数中学习到我应该怎样做决定呢?很简单,只需要记住那些高分,低分对应的行为,下次用同样的行为拿高分,并避免低分的行为.
计算机就是 Agent,他试图通过采取行动来操纵环境,并且从一个状态转变到另一个状态,当他完成任务时给高分(奖励),但是当他没完成任务时,给低分(无奖励)。这也是强化学习的核心思想。所以强化学习具有分数导向性。
我们换一个角度来思考.这种分数导向性好比我们在监督学习中的正确标签。
二、强化学习方法
1、Model-free 和 Model-based
如果不理解环境,环境给了什么就是什么,我们就把这种方法叫做 Model-free,这里的 Model 就是用模型来表示环境,理解环境就是学会了用一个模型来代表环境,所以这种就是 Model-based 方法。
Model-free 的方法有很多,像 Q learning、Sarsa、Policy Gradients 都是从环境中得到反馈然后从中学习。而 Model-based RL 只是多了一道程序,为真实世界建模,也可以说他们都是 Model-free 的强化学习,只是 Model-based 多出了一个虚拟环境,我们可以先在虚拟环境中尝试,如果没问题,再拿到现实环境中来。最终 Model-based 还有一个杀手锏,是 Model-free 所不具备的,那就是想象力.
Model-free 中,计算机只能按部就班,一步一步等待真实世界的反馈,再根据反馈采取下一步行动。而 Model-based,能通过想象来预判断接下来将要发生的所有情况,然后选择这些想象情况中最好的那种,并依据这种情况来采取下一步的策略,这也就是围棋场上 AlphaGo 能够超越人类的原因。
2、基于概率 和 基于价值
基于概率是强化学习中最直接的一种,他通所处的环境,输出下一步要采取的各种动作的概率,根据概率采取行动,所以每种动作都有可能被选中,只是概率不同。而基于价值的方法输出则是所有动作的价值,根据最高价值来选着动作,相比基于概率的方法,基于价值的决策部分更为肯定,就选价值最高的,而基于概率的,即使某个动作的概率最高,但是还是不一定会选到他.
但是对于选取连续的动作,基于价值的方法是无能为力的。我们却能用一个概率分布在连续动作中选取特定动作,这也是基于概率的方法的优点之一。那么这两类使用的方法又有哪些呢?
3、回合更新 和 单步更新
强化学习还能用另外一种方式分类,回合更新和单步更新。假设强化学习就是在玩游戏,游戏回合有开始和结束。回合更新指的是游戏开始后,需要等待游戏结束再总结这一回合,再更新我们的行为准则。而单步更新则是在游戏进行中每一步都在更新,不用等待游戏的结束,这样边玩边学习。
4、在线学习 和 离线学习
所谓在线学习,就是指必须本人在场,并且一定是本人一边行动边一学习。而离线学习是你可以选择自己行动,也可以选择看着别人行动,通过看别人行动来学习别人的行为准则,离线学习 同样是从过往的经验中学习,但是这些过往的经历没必要是自己的经历,任何人的经历都能被学习。
三、强化学习算法
强化学习是一个大家族,包含了很多种算法,接下来也会提到之中一些比较知名的算法,比如有通过行为的价值来选取特定行为的方法,包括使用表格学习的 Q_learning、Sarsa,使用神经网络学习的 Deep Q Network,还有直接输出行为的 Policy Gradients,又或者了解所处的环境,想象出一个虚拟的环境并从虚拟的环境中学习 等等 。
四、Q_learning
假设我们的行为准则已经学习好了,现在我们处于状态 s(tate) 1,有两个行为 a(ction) 1、a(ction) 2,在这种 s1 状态下,a2 带来的潜在奖励要比 a1 高,这里的潜在奖励我们可以用一个有关于 s 和 a 的 Q 表格代替,在Q表格中,Q(s1,a1) = -2,要小于 Q(s1,a2) = 1,所以我们判断要选择 a2 作为下一个行为。
现在我们的状态更新成 s2,我们还是有两个同样的选择,重复上面的过程,在行为准则 Q 表中寻找 Q(s2,a1)、Q(s2,a2) 的值,并比较他们的大小,选取较大的一个。接着根据 a2 我们到达 s3 并在此重复上面的决策过程。
Q_learning 的方法也就是这样决策的。看完决策,我看在来研究一下这张行为准则 Q 表是通过什么样的方式更改、提升的。
Q | a1 | a2 |
---|---|---|
s1 | -2 | 1 |
s2 | -4 | 2 |
根据 Q 表的估计,因为在 s1 中,a2 的值比较大,通过之前的决策方法,我们在 s1 采取了 a2,并到达 s2,这时我们开始更新用于决策的 Q 表,接着我们分别看看两种行为哪一个的 Q 值大。
比如说 Q(s2,a2) 的值比 Q(s2,a1) 的大,所以我们把大的值乘上一个衰减值 gamma (比如是0.9) 并加上到达 s2 时所获取的奖励 R(eward),因为会获取实实在在的奖励 R,我们将这个作为我现实中 Q(s1,a2) 的值,但是我们之前是根据 Q 表估计 Q(s1,a2) 的值。所以有了现实和估计值,我们就能更新Q(s1,a2),根据估计与现实的差距,将这个差距乘以一个学习效率 alpha 累加上旧的 Q(s1,a2) 的值,变成新的值。
但时刻记住,我们虽然用 maxQ(s2) 估算了一下 s2 状态,但还没有在 s2 做出任何的行为,s2 的行为决策要等到更新完了以后再重新另外做。这就是 Off-Policy 的 Q-learning 是如何决策和学习优化决策的过程
1 | Initialize Q arbitrarily // 随机初始化Q表 |
Q-learning的详细介绍可以看看这篇文章{强化学习——Q-learning}。
五、Sarsa
Sarsa 的决策部分和 Q learning 一模一样,因为我们使用的是 Q 表的形式决策,所以我们会在 Q 表中挑选值较大的动作值施加在环境中来换取奖惩. 但是不同的地方在于 Sarsa 的更新方式是不一样的。
同样,我们会经历状态 s1,然后再挑选一个带来最大潜在奖励的动作 a2,这样我们就到达了状态 s2,而在这一步,如果你用的是 Q learning,你会观看一下在 s2 上选取哪一个动作会带来最大的奖励,但是在真正要做决定时,却不一定会选取到那个带来最大奖励的动作,Q-learning 在这一步只是估计了一下接下来的动作值. 而 Sarsa 到做到,在 s2 这一步估算的动作也是接下来要做的动作. 所以 Q(s1,a2) 现实的计算值,我们也会稍稍改动,去掉maxQ,取而代之的是在 s2 上我们实实在在选取的 a2 的 Q 值. 最后像 Q learning 一样,求出现实和估计的差距 并更新 Q 表里的 Q(s1,a2)。
1 | Initialize Q arbitrarily // 随机初始化Q表 |
Sarsa的详细介绍可以戳这里强化学习——Sarsa。
六、DQN
看到这里,不知道你有没有发现一个问题。
我们使用表格来存储每一个状态 state 和在这个 state 每个行为 action 所拥有的 Q 值。而当今问题是在太复杂,状态比天上的星星还多(比如下围棋)。如果全用表格来存储它们,恐怕计算机有再大的内存都不够,而且每次在这么大的表格中搜索对应的状态也是一件很耗时的事。不过,在机器学习中,有一种方法对这种事情很在行,那就是神经网络。
我们可以将状态和动作当成神经网络的输入,然后经过神经网络分析后得到动作的 Q 值,这样我们就没必要在表格中记录 Q 值,而是直接使用神经网络生成 Q 值。还有一种形式的是这样,我们也能只输入状态值,输出所有的动作值,然后按照 Q-learning 的原则,直接选择拥有最大值的动作当做下一步要做的动作。
我们可以想象,神经网络接受外部的信息,相当于眼睛鼻子耳朵收集信息,然后通过大脑加工输出每种动作的值,最后通过强化学习的方式选择动作。
如果你想进一步了解DQN,可以看看这篇文章强化学习——Deep Q Network。
七、Policy Gradients
观测的信息通过神经网络分析,选出了一个的行为,我们直接进行反向传递,使之下次被选的可能性增加,但是奖惩信息却告诉我们,这次的行为是不好的,那我们的动作可能性增加的幅度随之被减低,这样就能靠奖励来左右我们的神经网络反向传递。
假如这次的观测信息让神经网络选择了另一个行为,右边的行为随之想要进行反向传递,使右边的行为下次被多选一点,这时,奖惩信息也来了,告诉我们这是好行为,那我们就在这次反向传递的时候加大力度,让它下次被多选的幅度更猛烈!这就是 Policy Gradients 的核心思想了。
八、Actor Critic
有了像 Q-learning这么伟大的算法,为什么还要瞎折腾出一个 Actor-Critic?原来 Actor-Critic 的 Actor 的前生是 Policy Gradients,这能让它毫不费力地在连续动作中选取合适的动作,而 Q-learning 做这件事会瘫痪。那为什么不直接用 Policy Gradients 呢?因为 Actor Critic 中的 Critic 的前生是 Q-learning 或者其他的以值为基础的学习法,能进行单步更新,而传统的 Policy Gradients 则是回合更新,这降低了学习效率。
现在我们有两套不同的体系,Actor 和 Critic,他们都能用不同的神经网络来代替。现实中的奖惩会左右 Actor 的更新情况。Policy Gradients 也是靠着这个来获取适宜的更新。那么何时会有奖惩这种信息能不能被学习呢?这看起来不就是以值为基础的强化学习方法做过的事吗?
那我们就拿一个 Critic 去学习这些奖惩机制,学习完了以后,由 Actor 来指手画脚,由 Critic 来告诉 Actor 你的那些指手画脚哪些指得好,哪些指得差,Critic 通过学习环境和奖励之间的关系,能看到现在所处状态的潜在奖励,所以用它来指点 Actor 便能使 Actor 每一步都在更新,如果使用单纯的 Policy Gradients,Actor 只能等到回合结束才能开始更新。
以上内容参考莫凡Python。