每天一分钟,带你读遍机器人顶级会议文章
标题:Improving 3D Object Detection for Pedestrians with Virtual Multi-View Synthesis Orientation Estimation
作者:Jason Ku, Alex D. Pon, Sean Walsh, and Steven L. Waslander
来源:2019 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS)
编译:王靖淇
审核:黄思宇,孙钦
这是泡泡一分钟推送的第 538 篇文章,和欢迎个人转发朋友圈;其他机构或自媒体如需转载,后台留言申请授权
摘要
在自动驾驶中,准确地估计行人方向是一项重要且具有挑战性的工作,这是因为行人方向信息对于跟踪和预测行人行为来说是至关重要的。该文提出了一种具有灵活性的虚拟多视图合成模块,可用于三维目标检测方法,以此来提高方向估计性能。该模块通过多步处理来获取细粒度语义信息,这些正是精确方向估计所需的信息。首先,使用结构保持深度补全算法对场景点云进行稠密化,并使用相应的RGB像素对每个点进行着色。接着在稠密点云中每个对象周围放置虚拟摄像机,生成新的视点,同时保持对象的外观。该文证明这个模组极大地提高了KITTI基准上有挑战性的行人方向估计性能。当与开源3D检测器AVOD-FPN一起使用时,该文方法在行人方向、3D和鸟瞰图基准上的表现优于所有其他已发布的方法。
图1:虚拟多视图合成方法。该方法的核心思想是为每个被检测到的行人生成一组虚拟视图,并在训练和推理过程中利用这些视图来产生准确的方向估计。
图2:行人在20米(顶图)和30米(底图)处的外观。从左至右依次为:RGB图像,激光雷达扫描强度彩色图,深度补全点云与相应RGB像素彩色图。在激光雷达扫描图像中像树这样的物体和行人的方向,即使对人类也不是很明显能识别。在我们的方法中,丰富的语义图像特征被保留下来,并与点云直接融合,使得更加容易识别这些信息。
图3:整体框架示意图。三维探测器用于生成三维检测,并将其传递到虚拟多视图合成模块中。该模块将虚拟摄像机放置在场景中,由彩色化和深度补全的激光雷达扫描图来表示,然后生成N个新的视点。最后,方向估计模块根据生成的视图预测目标的方向。
图4:虚拟相机位置。虚拟相机位置在与每个对象中心等距的位置,范围是原相机中心到对象质心的射线(用黑色虚线表示)周围-25°到25°不等。这里只显示了11个摄像机位置中的3个。
表1:三维行人检测召回率分析
表2:角度回归消融实验
表3:虚拟多视图消融实验
表4:行人位姿估计
表5:三维行人定位与检测
图5:定性分析结果。对比了单独AVOD-FPN检测和引入新方法的AVOD-FPN检测。从左到右依次为:单独AVOD-FPN,该文方法,真实值。AVOD-FPN可以检测到所有的行人,但是对几个目标的方向估计很差,而且在检测中还会出现误报。该文方法估计的方向更接近真相,同时也消除了一些误报。
Abstract
Accurately estimating the orientation of pedestrians is an important and challenging task for autonomous driving because this information is essential for tracking and predicting pedestrian behavior. This paper presents a flexible Virtual Multi-View Synthesis module that can be adopted into 3D object detection methods to improve orientation estimation. The module uses a multi-step process to acquire the fine-grained semantic information required for accurate orientation estimation. First, the scene’s point cloud is densified using a structure preserving depth completion algorithm and each point is colorized using its corresponding RGB pixel. Next, virtual cameras are placed around each object in the densified point cloud to generate novel viewpoints, which preserve the object’s appearance. We show that this module greatly improves the orientation estimation on the challenging pedestrian class on the KITTI benchmark. When used with the open-source 3D detector AVOD-FPN, we outperform all other published methods on the pedestrian Orientation, 3D, and Bird’s Eye View benchmarks.