识别迷雾中的物体，谷歌提出最新目标检测算法Context R-

晓查发自凹非寺

量子位报道 | 公众号 QbitAI

你能从下面的照片里看到什么吗？

呃，看起来像清晨的浓雾，但浓雾后面是什么，真的看不清楚。其实这是一群牛羚在山上行走。

虽然人眼已经无能为力，但是谷歌最新的目标检测模型可以识别！

谷歌提出了一种目标检测的新方法Context R-CNN，简单地说，就是利用摄像头长时间的拍摄内容，推理出模糊画面里的目标。这种模型的性能优于单帧Faster R-CNN。

这种新的对象检测体系结构利用网络中每个摄像机在整个时间范围内的上下文线索，无需依赖大量摄像机的额外训练数据，即可提高对目标的识别能力。

而且谷歌表示此模型将作为TensorFlow目标检测API的一部分开放给用户，简化在数据集上训练和测试Context R-CNN模型的过程，另外相关代码也已经开源。

原理

Context R-CNN它是对两阶段目标检测模型Faster R-CNN的改进，利用静态相机拍摄的图像内的高度相关性，以提高具有挑战性的数据的性能，并改进对新相机部署的通用性，无需额外的人工数据标记。

首先，Context R-CNN使用冻结的特征提取器来建立时间跨度较长的上下文存储库。由于这项技术最初用于野生动物的监测，时间跨度甚至能长达一个月。

接下来，在每个单帧图像中检测对象，R-CNN从内存库中聚合相关上下文，在具有挑战性的条件下（如前文的大雾中）检测对象。

在这个过程中，Context R-CNN使用注意力进行聚合，这对于静态监视摄像机中经常出现的稀疏和不规则采样率具有鲁棒性。

Context R-CNN从Faster R-CNN的第一阶段中获取建议的对象，并且对于每个对象，都使用基于相似性的注意力来确定内存库M中的每个特征与当前特征的相关性，并通过在内存库M上取相关性加权总和，并将其加回到原始目标特征上，来构造每个目标的上下文特征。

△ 图中绿色值是每个目标的相应注意力权重

然后，Faster R-CNN的第二阶段对已添加了上下文信息的每个对象进行最终分类。

实验结果

Context R-CNN的实际应用效果如何，作者在Snapshot Serengeti（SS）和Caltech Camera Traps（CCT）两个野生动物数据集上进行了测试。

现在，让我们一起来找找图片中的大象、羚羊和猴子吧。

你找到图片里所有的动物了吗？不仅是你，连Faster R-CNN也无法找全，而Context R-CNN不仅能发现浓雾、夜色里的动物，即使是动物被树木遮挡了一部分也能发现。

Context R-CNN在数据上的提升也相当明显。

上表列出了每个数据集上相比Faster R-CNN的改进。在SS上的平均精度（mAP）相对提高了47.5％，而CCT上的mAP则相对提高了34.3％。

显然，Context R-CNN发现目标的性能会随着时间范围的增加而增加。

博客地址：

https://ai.googleblog.com/2020/06/leveraging-temporal-context-for-object.html

论文地址：

https://arxiv.org/abs/1912.03538

人工智能