你试过闭上一只眼看周围的世界吗?
用一只眼睛看世界的时候,总感觉整个世界没有那么丰富了,却又说不上究竟少了什么;当睁开另一只眼时,你会觉得,这个世界才是你认识的那个世界。
两只眼睛和一只眼睛看到的虽然都是二维的世界,却还是差了一个信息维度,这个信息维度由“视差”造成——视差会影响深度(景深),人的大脑通过分析视差可以得到深度信息,从而脑补出3D立体画面。
这也是随着视觉AI技术火起来后出现的单目视觉和双目视觉两类方案的本质区别。
2020年,双目视觉方案辐射到扫地机器人领域,在推出基于沿用了四年的LDS激光雷达定位导航技术的扫地机器人新品“T7”后,石头科技(以下简称:石头)紧接着又发布了一款被定位到“科技创新”的“T7 Pro”,而后者,正是加入了双目视觉方案。
这让石头变得有点不同,也让扫地机器人变得有点不同。
8cm以下的世界,需要一双眼睛
当扫地机器人越过“随机碰撞”的鸿沟,标配了激光雷达和SLAM算法后,扫地机器人开始批量走入正在迅速城市化、缺少“家务劳力”的中国家庭。
在进入家庭后,扫地机器人却并未能如所有人期望那样自己扫地、擦地,仍会时不时地被插线板绊一下、被这个网线那个电线挂一下而被迫罢工。这是因为,设置在扫地机器人顶部的激光雷达无法识别近地空间中的杂物,毕竟,机器人不是人,设置在顶部凸起的大眼睛无法低头看路。
“我们扫地机器人顶部的LDS单线激光雷达的探测范围在8~10cm高度内的空间,”Tommy告诉雷锋网。
如何实现8cm以下近地空间的避障就成了一个问题。
为了解决这一问题,现在市面上出现了诸多方案,诸如3D结构光、单目视觉、3D ToF等,石头在推出的首款扫地机器人产品——「米家扫地机器人」时也有加入超声波传感器来解决这一问题,不过,当时的超声波方案较为简单,由于获得的信号有限,探测到障碍物时,无法准确判别其大小位姿,故而无法较好的解决避障的问题。
“所以,我们想用一个技术方案来识别插线板、塑料袋这类会卡死扫地机器人的物品,并进行避障,”Tommy这样解释加入双目视觉方案的初衷。Tommy是石头科技的产品总监,参与了T7 Pro从立项到研发的全过程。
在选用双目方案前,石头调研了市面上可用于室内扫地机器人避障的技术,得出的结论是:
3D结构光和3D ToF缺少图像信息,识别能力有限;单目视觉由于缺少视差信息,空间感知能力不足;而ToF+单目视觉的方案则在成本上较为昂贵。双目视觉技术能够提供图像信息进行辅助避障的同时,也能通过视差信息补充深度信息。于是,石头最终敲定用双目视觉方案来为T7 Pro解决近地空间避障问题。
对此,Tommy也向雷锋网进行了详细解释:
3D结构光或3D ToF的等深度成像技术,由于缺少颜色信息,同时分辨率(特别是ToF)受限,无法达成识别的效果,不足以让我们区分障碍物种类、该不该躲避,所以我们需要有图像信息来辅助判断。例如,在3D ToF的“眼”中,地毯和台阶看起来是差不多的,特征可能没有那么明显,所以我们需要引入图像信息来辅助判断;
单目视觉方案无法提供深度信息——如果前面有双鞋,我要避开它,就一定要知道那双鞋离扫地机有多远。单目视觉方案测距对于识别技术具有较强的依赖性:一般而言,首先需要识别出面前的物体(如鞋子),然后根据先验信息(如地面平面约束、鞋子一般尺寸大小), 通过识别到的感知域(ROI)位置、大小信息估算物体离自己有多远。当然,基于CNN的单目深度感知技术也已发展到了一定程度,但就今天来看,尚存在复杂度高、泛化性低(特别是对于扫地机视角室内场景)等问题。
另外,像是单目视觉+3D ToF这类方案成本又较高,我们需要找一个在技术上既能解决近地场景避障需求,成本又比较适中的方案。最终,我们选择了双目视觉方案。
2018年年底,T7 Pro立项,为扫地机加双目视觉方案这件事儿正式提上日程。
扫地机的视觉方案,有点“特别”
双目视觉方案并不是什么新方案,此前在自动驾驶、无人机,以及商用机器人领域已有广泛应用,不过,应用在家庭场景中的扫地机器人中的方案还是与此前其他应用方案有所不同。
“我们经常开玩笑说,大家不要把扫地机器人当作一个人在看这个世界,扫地机器人的视角更像是小仓鼠看这个世界的视角。”对计算机视觉技术有深入研究的John这样理解扫地机器人的视角。
正因如此,John所在的石头科技上海AI研究院为T7 Pro自研了一个适合扫地机器人近地视角场景应用的双目视觉方案。
为适应近地面视角,石头自研的双目视觉方案选用了两颗大仰角、大FOV(视场角)的500W像素、120°广角摄像头。
市面上大量双目模组一般不会有100°以上的FOV,这样的方案对于扫地机器人来说其实并不适用。
石头为扫地机器人配的双目视觉方案主要用于避障。针对避障这一功能,John也特别提到,扫地机器人的测距范围其实并不会很大。“扫地机器人实际需要的一般是几十公分到1米的一个近距离的测距避障,对于扫地机器人的双目视觉方案的要求也是在这个范围内要有良好的空间感知和识别能力,再结合成本,综合考虑各种方案,我们研发出一个较优的双目视觉方案。”
设计出适合扫地机器人视角的双目视觉方案后,在实际产品化过程中,第一次为扫地机器人加视觉方案的石头仍然面临着诸多挑战,例如密封问题、1500小时稳定测距问题等。
不同于汽车或其他商用机器人,扫地机器人是一个“吃灰”的设备,因此,如何让摄像头这一对工作环境要求较高的光学器件在工作1500小时(全生命周期)后仍能保持清洁,以避免对其成像、测距精度下降就成了一个必须考虑的问题。
为此,石头为T7 Pro重新设计了“前撞”的密封:
为了实现比较大的FOV,T7 Pro在设计时,将摄像头往内收了一些;
为了确保摄像头长期工作的精度和测距稳定性,石头为扫地机器人的“前撞”设计了特殊的密封结构;
为了保证扫地机器人受到撞击后,不会影响摄像头的位置和结构(保证摄像头的标定和精度),密封结构又要设计成“活动件”;
……
“我们做T7 Pro的密封结构方案花了将近半年的时间,反复调整了很多版,”对于密封结构的调校难度,Tommy深有体会。
密封结构最大的问题不在于设计,其实设计还是比较简单的,但是要保证上万台设备批量生产时不会出现问题、要保证用户在用T7 Pro一年后,其双目视觉方案测距精度和识别能力仍能有新买时的效果,难度就很大了。
为此,我们在测试过程中会将T7 Pro原型机放在铺有大量滑石粉的半平米密闭空间内跑三天,然后拿出来检测,快速验证哪里会进灰,然后反复进行测试和方案修正。
经过一年半的研发和测试,石头自研的双目视觉方案最终为T7 Pro提供了“家庭常见的宽大于5cm、高3cm-8cm之间的近地空间避障能力”。
给双目再配个补光灯
视觉方案一直有一个绕不过去的BUG——暗光识别能力差。
这就像是你的手机白天可以拍出清晰的照片,但到了夜间拍照,双摄、三摄都难以拍出令人满意的照片一样,不少手机厂商为了让自家手机能够胜任夜间拍照下了不少功夫,其中各大手机厂商最早用到的、也是最直接的方案是——加入一个LED补光灯。
同样,为了提升诸如夜间或沙发下等暗光场景的识别、避障能力,石头也为T7 Pro的双目方案配了个补光灯。
“为了提高用户体验,不产生晃眼的效果,实际上我们用到的是一个IR LED补光灯(红外补光灯),由此也让我们在结构设计、镜头适配、图像处理算法、导航策略上都需要进行相应的适配和调整。”John告诉雷锋网(公众号:雷锋网)。
往往一个器件的加入会让整个产品方案在软硬件上都要重新考虑适配问题,这对于产品研发团队来说,也是常有的事儿。
我们平时见到各类设备上的普通摄像头内部其实有一个IR-cut filter(红外截止滤光片),这一器件主要是为了把红外光滤掉,以提高图像生成质量。T7 Pro在加入红外补光灯后,同时同时对摄像头进行了适配,使其可接收IR频谱的光线。之后,扫地机器人具体工作过程中:
白天强光下,红外补光灯不打开,摄像头ISP(图像信号处理器)主要接收可见光;夜晚或暗光环境下,红外补光灯自动打开,摄像头ISP适配接收红外光。
其实如果将补光灯设计成可见光补光灯,方案复杂度会降低不少,但由于家庭环境中,可见光会比较刺眼,会影响用户实际体验,也因此,石头在最终方案选择上,排除了可见光补光灯的方案。
解决了暗光避障的问题,这一方案的实用性也提高了不少。
不过,要通过双目视觉实现避障,甚至是实现物体识别能力、配合LDS实现完整的定位导航功能,就需要John所在的AI研究院提供AI算法以及算法融合应用方面的炮火支援。
低调的AI研究院,决定了石头的“射程”
无论是激光雷达方案、3D结构光方案,还是视觉方案,其实在导航定位能力上都能有不俗的表现,但是扫地机器人路径规划或定位导航能力最终能实现多少、实际工作过程中有怎样的表现,其背后有怎样的AI算法、如何为扫地机器人的多传感器做搭建“融合算法”就成了关键。
石头在2017年年初成立的上海AI研究院主要做的就是这件事儿。
据雷锋网了解,石头这一研究院很低调,此前也不曾见网上有过相关报道。也正是这一低调的AI研究院,决定了石头扫地机器人的能力边界,决定了石头的最终“射程”。
John正是石头科技AI研究院研发总监,他告诉雷锋网,包括最早在石头扫地机器人T6上应用的基于CNN网络设计的房间分割算法就是产自上海AI研究院。此次双目视觉方案的研发工作,主要也是交由了上海AI研究院完成。
在方案设计初期,AI研究院对单双目方案也进行了深入研究。
如果我们去看CNN网络的一些研究会发现,一些学术流派已经放弃了用单目进行完整的测距,因为它的计算成本相对较高、测距能力对识别能力有较强的依赖性、测距的精度也有待提高。而单目能够实现的,双目一定都能实现;
此外,3D ToF+单目视觉方案虽然是一个很诱人的idea,但是成本相对也会更高;
我们最终发现,双目方案虽然在算法实现上有一定挑战,但却是一个既能有空间信息、又能有图像信息,同时也是成本较低的方案。
具体在双目视觉方案算法上,石头为T7 Pro加入了Reactive AI算法。
John向雷锋网介绍称,AI算法的长远应用趋势得益于两项技术的发展:
一个是自2012年后,神经网络技术的发展和应用落地,包括CNN网络从最初的RCNN、Yolo、SSD、MobileNet、CenterNet等一系列的发展,算法效果不仅越来越好,软件的轻量化也越来越好,落地的可能性和成本也越来越低;
另一个是室内机器人相关技术的发展与成熟。AI技术在扫地机平台的使用是一个系统工程,其中涉及了成像、图像处理、多感知融合、定位、导航等诸多技术。以AI为核心,以室内机器人为依托,系统地实现AI在扫地机平台地落地,达成更好的用户体验,这是我们研究院的努力方向。
正因如此,集成了机器学习、神经网络、计算机视觉、SLAM等领域技术,通过系统地解决双目视觉相关,标定、成像及图像处理、CNN识别、导航决策适配,综合形成了我们现在T7 Pro上应用的Reactive AI的算法能力。
为适配扫地机器人现有的多传感器融合技术,石头今年还首次对外公布了应用于石头扫地机器人T7上的mason 7.0算法系统,T7 Pro上则针对双目视觉方案的应用在这一算法系统中加入了3D信息和视觉能力,形成了3D版的「RR mason 7.0算法系统」。
据官方介绍,这一算法系统具体工作流程为:
「实时数据管理算法」负责管理分发传感器采集的环境数据,然后交由「感知与建图算法」进行数据融合与分析,最后「导航与运动算法」根据分析结果进行动态导航及规划。
加入双目视觉的T7 Pro还具备了识别能力。据官方数据显示,目前T7 Pro已经能够识别体重秤、风扇底座、鞋子、插线板、线团、宠物粪便6类物体,随后可通过OTA升级识别能力——后续第一期计划新增袜子、簸箕、U型椅3类物体。
由此,石头得以针对不同的物体为T7 Pro在算法上设计了不同的避让策略,例如,电线团——很危险——约5cm开始避障;拖鞋——很安全——约3cm开始避障。
据Tommy介绍称,双目摄像头实时识别出的障碍物也会实时反馈到手机地图中。雷锋网在实测中也发现,对于T7 Pro目前尚不支持识别的物体,扫地机器人会错误地识别为鞋子或插线板之类物体实时显示到地图中,据悉,这些识别上的错误不会影响避障,识别能力也会在T7 Pro后期OTA升级优化过程中逐步得到改善。
谦虚点,就叫“科技探索”版吧
5月20日,配有双目视觉方案的石头扫地机器人T7 Pro正式上线发布。至此,包括LDS激光雷达、3D结构光、3D ToF、单目视觉、双目视觉这些市面上比较成熟的定位避障方案都在扫地机器人这一家庭消费品上得到了应用。
iRobot的3D结构光方+视觉方案、科沃斯的3D ToF+AIVI方案、石头的双目视觉方案……,各扫地机器人厂商也都为自己今年发布的新品配上了一个拿得出手的定位避障“新”方案。
雷锋网也注意到,在T7 Pro发布时,石头还为这款产品打了一个标签——科技探索新品。
为什么会有“科技探索”这个叫法?
Tommy告诉雷锋网,“其实这款产品并不是什么预研产品,而是我们的量产机型,不过由于我们的T7 Pro是第一个将双目视觉方案用到了扫地机器人上的产品,想的是谦虚点吧,所以团队最终决定称它为'科技探索'版本。”
配有双目视觉方案的“科技探索版”石头扫地机器人T7 Pro在提升避障能力、间接提升了清洁能力这一主功能的同时,也加入了远程实时视频功能,由此,用扫地机器人来看家、巡逻,甚至“云吸猫”也都成为可能。
现在行业中有一种说法,像是智能手机、智能电饭煲、洗碗机等家用消费品已经成为懒人经济中“用了就回不去”的产品。那么,双目视觉能让扫地机器人成为下一个“用了就回不去”的家用消费品吗?
关注AIoT、机器人、智能硬件,新闻爆料或寻求报道,欢迎添加作者微信交流:18210039208。
相关文章:
扫地机器人“眼睛”进化史