冷启动如何快速训练

2021-03-29

N 人看过

字数：1.4k字 | 预计阅读时长：4分钟

1.训练速度慢涉及到的两个原因

1）增量式的参数更新，最初的算法，从输入的环境，到输出的 AI 动作之间，是靠梯度下降来完成映射的。在这个过程中，每个增量都需要非常小，才不至于让新学到的信息，把之前学到的经验覆盖了（这叫做灾难性干扰），如此一来，学习过程就十分缓慢。
2）弱归纳偏置，任何学习过程都面临着偏见-方差权衡
所谓偏见，就是一开始限定好一些可能的结果，AI 从里面找出自己想要的一种，限定越窄，AI 就可以只考虑到为数不多的可能性，更快地出结果。
弱归纳偏置，就需要考虑到更多的可能性，学习就会慢一些，通用神经网络都是偏见极低的系统，因为他们有大量的参数，可以用来拟合大范围的数据。

2.如何解决

1）如何解决训练慢的问题:

首先解决参数增量的问题：
情节性深度强化学习：就是给过去发生的事件，保留一个明确的记录，这个记录会作为依据，指导 AI 做出新的决策。
当遇到一个新事件，该作决策的时候，就把当前事件的内部表征，跟存储的各种过去时间对比一下，匹配分数最高的选中，和增量方法的区别在于：在这里，从过去的事件里学到的信息，都可以立刻派上用场，由此加速了学习过程。

因此，在把当前事件和过去时间的表征对比之前，AI 要先学习这些表征，连接权重的学习，依然要靠增量来进行，就像传统的 DRL 算法那样。慢慢学好表征之后，才能开始迅猛地奔跑。
DeepMind 说，“快从慢中生”并不是什么巧合，在心理学和神经科学上的体现，不亚于 AI 领域 (这个部分，大家可以自行探索原文) 。
**

2）弱归纳偏置问题：

然后，再解决归纳偏置的问题：
首先限定好一个狭窄的范围，再让 AI 去探索。道理都懂，可怎么知道应该限定在哪里？
答案是，借鉴过去的经验。
打个比方，第一次用智能手机的人类，可能从前还用过其他的设备。那里的经验，就可以帮他很快学会智能手机的用法。如果没有那些经验，就只能广泛尝试，影响学习速度了。
这个思路，也是从心理学上来的，叫做“学着学习 (Learning to Learn)”。
心理学家 Harry Harlow 就曾经用猴子来做实验：给猴子两个不熟悉的物体，一个下面放食物，一个不放。换两个物体，再换两个……久之猴子就知道，一边有食物一边没有，不管物体是什么，不管左边有还是右边有。
回到 AI 上来，用过去的经验来加速学习，在机器学习里叫做元学习 (Meta-Learning) **。
Wang 与 Duan 带领的两项研究，几乎是同时发表。都把这样的原理用在了深度强化学习上，就是元强化学习 (Meta RL) 。
一个 RNN 是用许多互相关联的 RL 任务来训练的。
RNN 的权重慢慢调整，然后可以吸取各种 RL 任务里面的共同点，改变网络的设定。原本，它没办法做到快速改变，来支持任何一个单一任务。
**重点来了，从 RNN 的活动动态 (Activity Dynamics) 中，可以生出一个独立的 RL 算法，根据过往的任务，快速解决新任务。
一个 RL 算法，能生出另一个 RL 算法，这就是元强化学习。

3.快从慢中来

像情节性 RL 一样，元 RL 也涉及了快速和慢速之间的联系：
RNN 中的连接，是在不同 RL 任务的学习中缓慢更新的，建立起不同任务之间共同的部分，把它内置到网络里去。
让这个 RNN，来实现新的 RL 算法，就可以快速搞定各种情况了。毕竟，已经有了慢速学习的归纳偏置做基础 (就像人类使用智能手机之前，已经用过其他设备那样)。
依然，慢是快的前提。
当然，情节性 DRL 可以和元 RL 合在一起用，相辅相成。
在情节性的元强化学习里，元学习是在 RNN 里实现的，不过上面叠加了一个情节记忆系统，作用是恢复 RNN 里的活动模式 (Patterns of Activity) 。
就像情节性 RL 一样，情节记忆会对各种过去的事件进行编目，可以查询。
但决策过程不一样，不是按照匹配分数来选择下一步的动作。而是和 RNN 存储好的活动模式，联系起来。
这些模式非常重要，通过 RNN，它们可以总结出智能体学到的东西。
当智能体遇到了类似过去的情况，就会在从前的经验中，恢复一些隐藏的 activations，让之前学过的信息立即派上用场，影响当前的策略。
这就叫“情节性元强化学习”，可以进一步加快强化学习的速度

本作品采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议 (CC BY-NC-ND 4.0) 进行许可。