DeepMind、哈佛造出 AI“小白鼠”，窥探神经网络的奥秘_

机器之心报道

机器之心编辑部

我们可以用研究小白鼠的方式来研究 AI 吗？或许可以。在一篇 ICLR 2020 Spotlight 论文中，DeepMind 和哈佛大学的研究者构建了一个基于 AI 的虚拟小鼠，能够执行跑、跳、觅食、击球等多项复杂任务。他们还尝试用神经科学技术来理解这个「人造大脑」如何控制其行为。或许这一成果可以为我们提供人工智能研究的新思路。

人工神经网络算是目前最为先进的人工智能，这是一类由多层神经元互联组件构成的机器学习算法，而「神经元」最早就是来自大脑结构的启发。尽管人工神经网络中的神经元肯定不同于实际人脑中的工作方式，但越来越多的研究者认为，将二者放在一起研究不仅可以帮助我们理解神经科学，还有助于打造出更加智能的 AI。DeepMind 和哈佛大学的研究者就在这一思路上进行了探索。

他们提出的是一种小鼠的 3D 模型，这一模型可在模拟环境中接受神经网络的控制。同时，他们用神经科学技术来分析小鼠的大脑生物活动，由此来理解神经网络如何控制小鼠的行为。该论文目前已被 ICLR 2020 大会接收为 Spotlight 论文。

论文链接：https://openreview.net/pdf?id=SyxrxR4KPS

论文作者之一、哈佛大学研究员 Jesse Marshall 表示，这个平台相当于神经科学领域的风洞，可以用不同程度的生物真实性来测试不同的神经网络，以此了解如何面对现实中的复杂挑战。

「在神经科学的典型实验中，研究人员通常会用敲击杠杆之类的单一行为来窥探动物的大脑活动，而大多数机器人也是为了解决定制任务而制造的，比如扫地机器人。这篇文章算是我们研究大脑如何产生并实现灵活性的开端，然后可以按照我们所观察到的结果来设计功能相似的人工智能产品。」

研究过程

构造一只虚拟小鼠

如下图 1 所示，研究者基于实验室小鼠的大小，在 MuJoCo 环境中（Todorov et al 于 2012 年提出）中实现了虚拟的小鼠身体。这个小鼠的可控自由度为 38，它的尾巴、脊柱和脖颈包含多段关节，并由共同驱动多关节的肌腱控制（MuJoCo 中的空间肌腱）。这一虚拟小鼠将作为「dm_control/locomotion/」项目的一部分来开源。

项目地址：https://github.com/deepmind/dm_control/tree/master/dm_control/locomotion

虚拟小鼠可以获得本体感应信息（proprioceptive information）以及来自头戴式摄像头的「原始」、第一人称 RGB 相机（64×64 像素）输入。本体感应信息包括：内部关节角度和角速度、提供驱动的肌腱的位置和速度、从小鼠骨盆到爪子、头部的第一人称向量、类前庭的垂直取向向量、爪子中的接触感应区，以及骨盆的第一人称加速度、速度和 3D 角速度。

训练一个神经网络

近期的研究表明，端到端强化学习可以生成单一的地形自适应策略，基于此，研究者在多个依赖马达控制（motorcontrol）的任务上训练了单一架构，具体如下图 3 所示。

图 3：虚拟小鼠智能体架构。

为了训练一个可以执行所有四项任务的单一策略，研究者使用了用于动作评价结构（actor-critic）DeepRL 的 IMPALA-style 设置，并且通过直立迹（V-trace）和异策略校正（off-policy correction）对价值函数评价器进行训练。

研究者在实验中发现，在与其他三个任务相关的交叉训练过程中，「逃离丘陵环境」任务的学习更具有挑战性。因此，研究者展示了在「逃离」任务中训练一个单一任务专家以及使用针对该任务的 kick-starting 训练多任务策略的结果，并且得出的系数很弱（.001 或.005）。逃离任务上使用 kick-starting 可以使小鼠更可靠地完成所有四项任务，不同架构的多任务策略之间也能更方便地进行比较。最后生成单个神经网络，该网络利用虚拟输入来决定小鼠的行为方式，并通过协调小鼠的身体来完成各项任务。

让小鼠完成四项任务

研究者借助训练好的神经网络指导小鼠完成四个动作：跳过多个空隙、在迷宫中觅食、逃离丘陵环境、精确地击球。

奔跑并跃过多个空隙。

觅食动作：追逐蓝色球体。

逃离丘陵。

用前爪精确击球。

分析实验结果

小鼠顺利完成任务之后，研究者结合虚拟小鼠的行为分析它的神经网络活动，以探索它如何完成多项任务（下图 4A）。他们使用了来自神经科学的分析和扰动技术，这一领域已经开发出了一系列探索真实神经网络特性的技术。

研究者记录了虚拟小鼠的运动学、关节、算力、感觉输入以及 LSTM 在核心层和策略层的单元活动。

图 4：虚拟小鼠的行为学记录。

但论文作者之一、哈佛大学研究生Diego Aldarondo表示，他们发现了一个有趣的事情：当神经活动直接控制肌肉力量和腿部动作时，这些活动在比预期更长的时间尺度上出现。

这意味着神经网络似乎可以用一种抽象的符号来代表跑、跳、旋转等多个任务，这是一种先前在啮齿动物和鸣禽动物中都已观察到的认知模式。

研究意义

虽然神经网络不具备生理真实性，但加拿大麦吉尔大学的神经科学家 Blake Richards 说，神经网络捕捉到了神经处理过程中足够多的重要特征，可以针对神经活动如何让影响行为做出有用的预测。他说，这篇论文的最大贡献就是提出了一种近乎真实的方式训练这些网络，使它们更容易与生物数据进行比较。

他还说，作者们正在提供一个平台，用于训练一个真实的生物体和一系列的任务，让与真实的啮齿动物大脑的对比更有意义。

从研究上说，人工神经网络还不适合与生物神经网络进行过于宽泛的比较，但这种方法可能是探索行为的神经基础的一种好方法。

Scott 表示，记录动物行为并将其与特定行为联系起来的复杂程度决定了，大多数实验都是在相对简单的任务中完成的，而且实验的设定非常严格。而相比之下，虚拟小鼠却可以实现非常复杂的、多部分的行为，例如觅食，这些行为可以与它的感官输入和神经活动高度精确地联系起来。

唯一的问题在于，我们难以从动物身上收集任务设定如此复杂的神经数据。Scott 表示，他希望研究人员能在实验室环境中让虚拟小鼠完成更为简单的任务，以使其神经活动模式可以和真实动物中发现的那些进行比较，以便了解它们之间的异同。

参考链接：https://spectrum.ieee.org/tech-talk/artificial-intelligence/machine-learning/ai-powered-rat-valuable-new-tool-neuroscience

本文为机器之心报道，转载请联系本公众号获得授权。

------------------------------------------------

加入机器之心（全职记者 / 实习生）：hr@jiqizhixin.com

投稿或寻求报道：content@jiqizhixin.com

广告 & 商务合作：bd@jiqizhixin.com

人工智能

为你推荐

科沃斯引领行业智能进化京东超品日掀家用机器人消费热潮

Unity助力创作者制作百万级播放量神作_腾讯新闻

神州泰岳创新新技术，实现产业全覆盖_腾讯新闻

新一代人工智能计算平台发布：当算力成为一种新生意_腾讯

百度输入法不仅让你打字如飞，还让你风趣浪漫会聊天_腾讯

张院士，开讲了！_腾讯新闻

没有车企愿意只作华为的“肉体”_腾讯新闻

5 张图带你了解 Pulsar 的存储引擎 BookKeeper_腾讯新闻

世界首座金属3D打印桥梁成功在阿姆斯特丹安装_腾讯新闻

4层楼的距离拾音：腾讯会议发布天籁语音模组方案_腾讯新闻

热门文章

猜你喜欢