人工智能系统使机器人具备了像人类一样灵巧的掌握和操纵物体的能力,而现在国外研究人员声称已经开发出一种新算法,通过这种算法,机器人可能学会自己走路。研究人员在Arxiv.org上发表一篇名为“通过深度强化学习走路”的论文中,来自加州大学伯克利分校和谷歌人工智能研究部门Brain的科学家开发了一个人工智能系统,它可以“教会”一个四肢可以行走的机器人穿越自己熟悉或陌生的地形。
“深度强化学习可以用于自动获取一系列机器人任务的控制器,从而实现对策略的端到端学习,将感官输入信息映射称低级动作。”该论文的作者表示。“如果我们能在现实世界中直接从零开始学习移动步态,原则上就能获得最适合每个机器人甚至不同地形的控制器,从而有可能实现更好的灵活性和效率。”
这种设计有两方面的挑战。强化学习是一种人工智能训练技术,它使用奖励或惩罚来驱动个体朝着目标前进。强化学习需要大量的数据,在某些情况下需要数万个样本,才能取得良好的结果。在美国决定其结构的参数通常需要进行多次训练,这可能会随着时间的推移对机器人的机械腿造成伤害。
论文作者表示:“深度强化学习可以被广泛应用于仿真中学习运动策略,甚至将其应用于现实机器人,但这不可避免地会由于仿真中的差异而导致性能损失,而且需要大量的手工建模。事实证明,在现实世界中使用这种算法具有非常大的挑战性。”
为了知道一种方法,研究人员表示可以让系统在不进行模拟训练的情况下学习运动技能。他们采用了一种被称为“最大熵RL”的强化学习框架。最大熵RL优化了学习策略,使期望收益和期望熵(即被处理数据的随机性度量)都达到最大值。RL中,人工智能代理人通过从政策中取样并获得奖励,不断地寻找行动的最佳路径,包括状态行动的轨迹。最大熵RL激励政策进行更广泛的探索,一个参数比如温度,决定了熵相对于奖励的相对重要性,因此决定了它的随机性。
但它不全是好处,至少一开始不是。由于熵与奖励之间的权衡直接受到奖励函数规模的影响,反过来又会影响学习速率,因此通常需要根据环境调整比例因子。研究人员的解决方案是自动化温度和奖励量表的调整,部分方法是在两个阶段之间交替进行,数据收集阶段和优化阶段。
结果很明显,在OpenAI (一个用于训练和测试AI代理的开源模拟环境)进行的实验中,作者的模型在四个连续运动任务中实现了“几乎相同”或比基线更好的性能。
在另一个真实世界的测试中,研究人员将他们的模型应用于一个四足微型机器人,这是一个有八个执行器的机器人,一个测量电机角度的电机编码器,以及一个测量方向和角速度的惯性测量单元(IMU)。
他们开发了一个由1个计算机工作站组成的流水线,该工作站更新神经网络,从Minitaur下载数据,并上传最新的策略;机器人上搭载的英伟达Jetson TX2执行上述策略,收集数据,并通过以太网将数据上传到工作站。两小时内,他们用一种奖励前进速度、惩罚“大角度加速度”和俯仰角的算法,机器人走了16万步,成功地训练了这架小型无人机在平坦的地形上行走,越过木块等障碍物,爬上斜坡和台阶,而这些动作在训练时都没有出现。
研究人员表示“据我们所知这个实验是一种深层强化学习算法的首个例子,这种算法可以在没有任何模拟或训练的情况下,直接在现实世界中学习驱动力不足的四足运动。”