论文阅读-2:从单一场景的深度光场驱动显著性目标检测

2020/01/30

[论文阅读-2] Deep Light-field-driven Saliency Detection from a Single View

会议:IJCAI-2019

摘要:

本文将显著性目标检测问题划分为两个子问题:1)从单一视角合成光场(light field synthesis from a single view)2)光场驱动的显著性目标检测(light-field-driven saliency detection)。文中提出传统的2D方法以及基于深度学习的2D方法并没有考虑3D场景下的几何信息,对于场景理解和显著性目标之间的关系并没有被建立起来。(The relationship between scene understanding and salient objects cannot be effectively established.)。本文提出了一种新的光场驱动的显著性目标检测网络,其伴有两个目的:1)更多的显著性特征可以被生成并用来做有效的显著性检测;(richer saliency features can be produced for effective saliency detection)2)在场景级别注意力机制中几何信息在集成多场景显著性图时会被考虑(… geometric information can be considered for integration of multi-view saliency maps in a view-wise attention fashion …)

简介:

现存的显著性目标检测算法可以粗略的分为三类:2D、3D和4D输入。在3D和4D的显著性目标检测方法中,会采用深度图(depth maps)、多重聚焦(focal stacks)和多场景图片(multi-view image)当作输入,它们都可以提供一个更准确的几何信息。在2D显著性目标检测方法中,传统方法主要依靠不同的人为设计特征以及先验知识。比如:图片的边缘大多是背景,前景和背景之间的颜色对比度相差较大等。基于深度学习的显著性目标检测方法受益于卷积神经网络对于特征提取的能力。但是相比于3D和4D的方法,2D的深度学习模型在一些场景下的表现还是相对较弱,原因有两方面:1)许多先验知识在复杂场景中并不有效(many prior knowledge are not fully effective in complex scenes)2)目前的2D深度学习方法主要依靠卷积神经网络的学习能力,对于场景理解和显著性目标之间的关系并没有被建立起来。

光场提供一系列视点的场景图像,这些视点分布在镜头的边缘。这些不同的场景图像可以提供大量的空间视差信息以及关于场景中物体的精确深度信息。(These different views provide abundant spatial parallax information as well as accurate depth information about the objects in the scene.)

贡献

  • 收集了1580张可用的光场图片,每个光场包括了多场景图片以及一个像素级别的中心场景的真值图。
  • 首次提出了显著性目标检测问题可以被划分为两个子问题:从单一视角合成光场以及光场驱动的显著性目标检测。
  • 提出了一个新的光场驱动的显著性目标检测网络,其中新的显著性特征提取技术简化了显著性目标预测(where the new saliency feature extraction technique facilitates saliency detection),多场景注意力机制被用于多场景显著性图的集成。(the multi-view attention module helps integrate multi-view saliency maps in a view-wise way)

网络结构

对于整条流水线的分析

受到光场的启发,本文设计了一个光场渲染网络用来简化显著性目标检测,提出了光场驱动的显著性目标检测网络用来建立基于场景理解和显著性物体之间的关系。

首先将单一场景扩展为一系列场景(expand a single view to an array of views),考虑到冗余的光场信息,本文只沿着水平方向和垂直方向合成场景(only synthesize the views along the horizontal and vertical directions through the central view)。借鉴[Srinivasan et al., 2017]一文的思想通过使用相应的深度信息扭曲单个图像以生成光场,本文训练深度卷积神经网络来估计场景深度,并基于物理的扭曲层来渲染光场的Lambertian近似(train depth CNNs to estimate scene depths and render a Lambertian approximation of light field based on a physically-based warping layer)。在生成光场图片之后,本文设计了一个光场驱动的显著性目标检测网络,其中包括多场景显著性目标检测子网络和多场景注意力模块。

光场合成网络

利用深度卷积神经网络来分别对水平方向和垂直方向的深度图进行采样。深度卷积神经网络包括十个卷积层其中四个空洞卷积层(用来获得更大的感受野),然后中心图片(central image)和预测的深度图被送入扭曲层来渲染光场的其他视点。在渲染完其他视点之后,本文计算了预测图片和真值之间的重构误差(L1损失),为了改善深度图的质量,[Srinivasan et al., 2017]一文中提出的正则化项也被应用在光场渲染网络中。

光场驱动显著性目标检测网络

多场景显著性目标检测子网络

子网络基于VGG-19模型,为了利用更多的显著性信息,本文将相同卷积块中的特征进行了结合,然后用一个大小为1*1的卷积核去做卷积衡量每一个特征的权重,用递归机制从深层到浅层优化显著性目标预测结果。

多场景注意力模块

注意力机制可以在考虑到几何信息的同时从不同的场景来学习显著性结果的权重(learn the importance of saliency maps from different views by considering the geometric information)。在不同场景中,显著性物体是轻微位移。为了更有效的集成,本文首先利用对应的深度图对多场景显著性结果进行扭曲得到中心图,然后把扭曲的多场景显著性结果和深度图结合得到一个4D向量,用两个卷积核大小为3*3*3的进行卷积,用平均池化层和全连接层来预测每一个场景下显著性结果的权值大小。

与SOTA结果比较

Post Directory