当前位置: 首页 > 科技 > 人工智能 > 【泡泡一分钟】一种用于语义分割的全卷积网络设计_腾讯新

【泡泡一分钟】一种用于语义分割的全卷积网络设计_腾讯新

天乐
2020-06-18 21:32:54 第一视角

每天一分钟,带你读遍机器人顶级会议文章

标题:Fully Convolutional Networks for Semantic Segmentation

作者:Jonathan Long,Evan Shelhamer,Trevor Darrell

来源:CVPR2015

编译:贺治钧

审核:黄思宇,孙钦

这是泡泡一分钟推送的第 542 篇文章,欢迎个人转发朋友圈;其他机构或自媒体如需转载,后台留言申请授权

摘要

卷积神经网络是一种强大的可以产生特征点层次结构的视觉模型。我们在本文中展示了卷积网络本身、端到端的训练、像素到像素这三方面上超越了目前语义分割的最高水平。我们的主要贡献在于建立了全卷积网络,该网络接受任意尺寸大小的输入并通过有效的推理和学习产生相应大小的输出。我们详细的展示了整个网络空间,并针对该网络在空间密集预测任务中的应用进行了解释,并绘制了与先验模型的关系。我们将目前的分类网络(AlexNet、VGG Net、GoogleNet)调整为全卷积网络并且将他们的学习结果通过fine-tuning应用到分割任务上。进而我们定义了一种架构,将来自深层粗糙层的语义信息与来自浅层精细层的外观信息相结合,来生成产生精确和详细的分割。我们的全卷积网络在PASCAL VOC、NYU2v2和SIFT Flow上达到了图像分割的最高水平。

图1. 全卷积网络可以有效的学习如何对每一个像素进行稠密预测(例如语义分割)。我们展示了该工作如何在像素级别上超越目前的研究工作。目前已知的网络的全卷积版本可以从任意大小的输入产生稠密的预测输出。

图2.如图所示,将全连接层转换成卷积层可以使得分类网络输出一个热成像图。添加多层和空间损失可以产生有效的端到端稠密学习能力。一些典型的识别网络,比如LeNet,AlexNet以及其更深层次的后续工作,只是输入固定尺寸的输入然后产生非空间域的输出结果。这些网络的全连接层有固定的维度并且抛弃了空间坐标。然而,这些全连接层也可以被视为覆盖整个区域的卷积核。这样做可以将他们转换成全卷积网络并且可以接受任意尺寸大小的输入并产生分类输出图。

图3.我们的DAG网络可以学习如何将高的、粗糙层信息与低的、精细层信息相结合。池化和预测层在图中以网格标识来显示相对空间粗糙度,同时图中中间层以竖线标识。第一行(FCN-32s):我们的单一流网络,上采样单步将32个预测返回到像素;第二行(FCN-16s):融合从最后层和第四个池化层得到的预测值,在单步16,让我们的网络可以预测更精细的细节,并同时保存了高级别的语义信息;第三行(FCN-8s):额外的预测值,单步8,提供额外的精度保证。

图4.通过融合不同步长的卷积层中得到的信息来使全卷积网络更加精细化,这样可以进一步提高语义细节。前三个图像分别来自于我们的32、16、8像素步长网络。

图5.在所有图像上进行训练和采样方式具有同样的效率,但是对数据更高效的使用可以实现更快的收敛速度。左图显示了固定batch_size以后采样率与收敛率的对比,右图显示了同样的条件下对relative_wall-time的对比。

图6.全卷积分割网络在PASCAL数据集上实现了目前的最高水平。左边第一列图像显示了我们最好结果的FCN-8s网络输出。第二列显示了之前的由Hariharan等人设计的最优系统给出的分割结果。从第一行可以看出结构可以很良好的标记出来,第二行可以看出我们可以很好的分离相互交叉很近的目标,第三行可以看出我们的方法对遮挡也同样有效,第四行显示了一个失败样例:网络将一个船中的救生衣识别成了人。

Abstract

Convolutional networks are powerful visual models that yield hierarchies of features. We show that convolutional networks by themselves, trained end-to-end, pixelsto-pixels, exceed the state-of-the-art in semantic segmentation. Our key insight is to build “fully convolutional”networks that take input of arbitrary size and produce correspondingly-sized output with efficient inference and learning. We define and detail the space of fully convolutional networks, explain their application to spatially dense prediction tasks, and draw connections to prior models. We adapt contemporary classification networks (AlexNet[20], the VGG net[31], and GoogLeNet[32]) into fully convolutional networks and transfer their learned representations by fine-tuning [3] to the segmentation task. We then define a skip architecture that combines semantic information from a deep, coarse layer with appearance information from a shallow, fine layer to produce accurate and detailed segmentations. Our fully convolutional network achieves stateof-the-art segmentation of PASCAL VOC (20% relative improvement to 62.2% mean IU on 2012), NYUDv2, and SIFT Flow, while inference takes less than one fifth of a second for a typical image.

提示:支持键盘“← →”键翻页
为你推荐
加载更多
意见反馈
返回顶部