市面上用传感器测量距离有多种方式,比如稀疏光子成像、非视距成像(NLOS)等。不管是基于超声波传感还是红外线传感,他们的相似之处在于都是通过计算声波或光波到达某一表面并反射回来的时间来推算距离。
通常,基于光学传感的3D扫描需要两个或以上个摄像头,以捕捉跟合成人眼双目视差效果。或是通过光源阵列和多个单一的光传感器来对空间中的物体进行3D识别和重建。
近期,英国格拉斯哥大学的科研人员提出了一种结合深度学习算法的低成本SPAD传感方案。它的特点是只需要单一光源和传感器,就能通过光线从场景反射回来的时间来进行3D测距。据悉,该方案的平均误差仅为四分之一纳秒,而且最远可识别4米内的物体,刷新率高达1000fps。
专家表示:通常光子到达3米远处任何表面并反射回来平均需要10纳秒,但这个时间并不能直接反映出该表面的方向和角度。
而格拉斯哥大学科研人员在实验初期进行测距时,获得的图像虽然比普通ToF摄像头的要更模糊、缺少细节,但外观轮廓比较清楚。接着,他们利用在同一场景训练的神经网络,来破解和优化3D扫描信号。
具体来讲,该方案分为三个部分:1)脉冲光源;2)单点时间识别传感器;3)图像重建算法。科研人员在场景中用单一方向的脉冲激光源进行照射,接着单光子雪崩二极管(SPAD)将收集这些反射回的光线,并生成时间柱状图。然后,在使用人工神经网络来通过单一的时间柱状图识别和重建3D场景。
在训练神经网络的过程中,科研人员将使用脉冲光源、ToF模组、SPAD传感器,对空间中移动的人进行动态扫描。通过对比ToF模组识别到的3D数据和SPAD传感数据重建的图像,来完成对神经网络的训练。
为了验证效果,科研人员首先通过数字模拟来进行分析。在一个20立方米空间,用类似于人形的物体摆出多种不同的姿势,并利用时间测量法来重建3D图像和时间柱状图。同时,也使用同步的ToF模组(也可以用LiDAR、立体成像或全息装置)来收集对比数据。
结果显示,通过SPAD方案重建的3D图像比ToF方案缺少一些细节,但整体轮廓得以体现。接着,科研人员通过重复用时间柱状图重建,来进一步分析脉冲响应函数(IRF)对3D图像分辨率的影响。结果发现,IRF响应时间变长,场景中3D图像的轮廓也依然可以分辨。
不过也发现,该方案将依赖于在特定场景中训练过的神经算法。也就是说,科研人员所训练的神经网络仅识别特定的静态背景,同样的物体或人物在其他背景中则不再识别。
由于在实验中,算法训练使用到的均为动态背景中移动的物体,所以目前只适合扫描设备固定在静态背景中运行。尽管如此,这一方案的优势在于刷新率高,可用于自动驾驶、基于笔记本电脑摄像头和无线电天线的实时3D监控或是AR测距等场景。
此外,SPAD方案重建的图像分辨率受训练神经网络时所使用的3D传感器局限,而且图像质量受到时间测距传感器的刷新率决定。
未来,科研人员计划继续训练神经网络,以便于识别动态空间背景,同时也计划向非视距成像(NLOS)领域延伸。参考:OSA