冷启动如何快速训练
1.训练速度慢涉及到的两个原因
1)增量式的参数更新,最初的算法,从输入的环境,到输出的 AI 动作之间,是靠梯度下降来完成映射的。在这个过程中,每个增量都需要非常小,才不至于让新学到的信息,把之前学到的经验覆盖了(这叫做灾难性干扰),如此一来,学习过程就十分缓慢。
2)弱归纳偏置,任何学习过程都面临着偏见-方差权衡
所谓偏见,就是一开始限定好一些可能的结果,AI 从里面找出自己想要的一种,限定越窄,AI 就可以只考虑到为数不多的可能性,更快地出结果。
弱归纳偏置,就需要考虑到更多的可能性,学习就会慢一些,通用神经网络都是偏见极低的系统,因为他们有大量的参数,可以用来拟合大范围的数据。
2.如何解决
1)如何解决训练慢的问题:
首先解决参数增量的问题:
情节性深度强化学习:就是给过去发生的事件,保留一个明确的记录,这个记录会作为依据,指导 AI 做出新的决策。
当遇到一个新事件,该作决策的时候,就把当前事件的内部表征,跟存储的各种过去时间对比一下,匹配分数最高的选中,和增量方法的区别在于:在这里,从过去的事件里学到的信息,都可以立刻派上用场,由此加速了学习过程。
因此,在把当前事件和过去时间的表征对比之前,AI 要先学习这些表征,连接权重的学习,依然要靠增量来进行,就像传统的 DRL 算法那样。慢慢学好表征之后,才能开始迅猛地奔跑。
DeepMind 说,“快从慢中生”并不是什么巧合,在心理学和神经科学上的体现,不亚于 AI 领域 (这个部分,大家可以自行探索原文) 。
**
2)弱归纳偏置问题:
然后,再解决归纳偏置的问题:
首先限定好一个狭窄的范围,再让 AI 去探索。道理都懂,可怎么知道应该限定在哪里?
答案是,借鉴过去的经验。
打个比方,第一次用智能手机的人类,可能从前还用过其他的设备。那里的经验,就可以帮他很快学会智能手机的用法。如果没有那些经验,就只能广泛尝试,影响学习速度了。
这个思路,也是从心理学上来的,叫做“学着学习 (Learning to Learn)”。
心理学家 Harry Harlow 就曾经用猴子来做实验:给猴子两个不熟悉的物体,一个下面放食物,一个不放。换两个物体,再换两个……久之猴子就知道,一边有食物一边没有,不管物体是什么,不管左边有还是右边有。
回到 AI 上来,用过去的经验来加速学习,在机器学习里叫做元学习 (Meta-Learning) **。
Wang 与 Duan 带领的两项研究,几乎是同时发表。都把这样的原理用在了深度强化学习上,就是元强化学习 (Meta RL) 。
一个 RNN 是用许多互相关联的 RL 任务来训练的。
RNN 的权重慢慢调整,然后可以吸取各种 RL 任务里面的共同点,改变网络的设定。原本,它没办法做到快速改变,来支持任何一个单一任务。
**重点来了,从 RNN 的活动动态 (Activity Dynamics) 中,可以生出一个独立的 RL 算法,根据过往的任务,快速解决新任务。
一个 RL 算法,能生出另一个 RL 算法,这就是元强化学习。
3.快从慢中来
像情节性 RL 一样,元 RL 也涉及了快速和慢速之间的联系:
RNN 中的连接,是在不同 RL 任务的学习中缓慢更新的,建立起不同任务之间共同的部分,把它内置到网络里去。
让这个 RNN,来实现新的 RL 算法,就可以快速搞定各种情况了。毕竟,已经有了慢速学习的归纳偏置做基础 (就像人类使用智能手机之前,已经用过其他设备那样)。
依然,慢是快的前提。
当然,情节性 DRL 可以和元 RL 合在一起用,相辅相成。
在情节性的元强化学习里,元学习是在 RNN 里实现的,不过上面叠加了一个情节记忆系统,作用是恢复 RNN 里的活动模式 (Patterns of Activity) 。
就像情节性 RL 一样,情节记忆会对各种过去的事件进行编目,可以查询。
但决策过程不一样,不是按照匹配分数来选择下一步的动作。而是和 RNN 存储好的活动模式,联系起来。
这些模式非常重要,通过 RNN,它们可以总结出智能体学到的东西。
当智能体遇到了类似过去的情况,就会在从前的经验中,恢复一些隐藏的 activations,让之前学过的信息立即派上用场,影响当前的策略。
这就叫“情节性元强化学习”,可以进一步加快强化学习的速度
本作品采用 知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议 (CC BY-NC-ND 4.0) 进行许可。