[论文阅读-3] Pyramid Feature Attention Network for Saliency detection
会议:CVPR-2019
摘要:
本文提出一种金字塔特征注意网络,重点关注有效的高层上下文特征和低层次的空间结构特征。 首先文中设计了上下文感知金字塔特征提取模块(CPFE)用于多尺度高层次特征映射来获得丰富的上下文特征,其次采用CPFE的特征映射后的信道注意(CA)和低层次特征映射后的空间注意力(SA),然后将CA和SA的输出融合在一起,最后用一种边缘保留损失来指导网络学习更详细的边界定位信息。
简介:
目前最有效的显著性检测方法是基于FCN的。FCN将多个卷积层和池化层叠加起来,逐步增加接收域,生成高级语义信息,在显著性检测中起着至关重要的作用,然而池化层缩小了特征映射的大小,并恶化了突出对象的边界。有些网络用人为设计的特征来保护突出物体的边界,提取人为设计的特征来计算超像素的显著值。通过人为设计的特征将图像划分为区域。 在生成显著性图时,人为设计的特征和CNN特征是互补的,但在这些方法中分开提取,难以有效地融合单独提取的互补特征。此外,人为设计的特征提取是一个耗时的过程。 除了人为设计的特征外,一些工作还发现网络不同层的特征也是互补的,并集成了用于显著性检测的多尺度特征。 更具体地,深层的特征通常包含全局上下文感知信息,其适合于正确地定位显著性区域。 浅层的特征包含空间结构细节,适合于定位边界。 这些方法融合了不同的尺度特征而没有考虑它们对显著性的不同贡献,它对于显著性检测不是最佳的。 为了克服这些问题,将关注模型和门函数引入显著性检测网络。 但是,这些方法忽略了高级和低级特征的不同特征,可能会影响有效特征的提取。 因此如何获得各种功能并选择有效功能成为显著性检测中的一个重要问题。 作者提出了一种新的显著性物体检测方法 :金字塔特征注意(PFA)网络。考虑到不同级别特征的不同特征,来自低级特征的显著性图包含许多噪声,而来自高级特征的显著性图仅获得近似区域。因此,对于受SIFT特征提取算法启发的高级特征,设计了一个上下文感知金字塔特征提取(CPFE)模块,以获得多尺度多感受域高级特征,然后使用通道方式注意(CA)选择适当的比例和感受域以产生显著性区域。在训练过程中,CA为通道提供较大的权重,这对于显著性检测起着重要作用。为了优化显著性区域的边界,将低级特征与边缘信息融合在一起。但并非所有边缘信息都有效地提炼显著性图,而是期望关注显著对象和背景之间的界限。因此,我们使用空间注意来更好地关注有效的低级特征,并获得明确的显著性边界。在处理不同的注意机制后,高级特征和低级特征具有互补意识,适合生成显著性图。此外,与以前的显著性检测方法不同,作者提出边缘保留损失,以指导网络在边界定位中学习更详细的信息。
贡献
- 提出了一个用于图像显著性检测的金字塔特征注意(PFA)网络。 对于高级功能,采用上下文感知金字塔特征提取模块和通道注意模块来捕获丰富的上下文信息。 对于低级功能,采用空间注意模块来过滤掉一些背景细节。
- 设计了边缘保存损失,以指导网络在边界定位中学习更详细的信息。
在CPFE模块中,VGG网络的三个高级块侧采用多尺度的回转卷积,然后通道注意机制将大权重分配给对显著对象表现出高响应的通道。对于低级特征,存在一些背景区域,其分散了显著性图的生成。空间注意机制根据高级特征过滤掉一些背景细节,并更多地关注前景区域,这有助于为显著性预测生成有效的特征。
网络结构
现有的CNN模型通过堆叠多个卷积和池化层来学习对象的特征。然而,显著性物体在尺度,形状和位置上有很大的变化。以前的方法通常直接使用从下到上的卷积和池化层,这可能无法有效地处理这些复杂的变化。受SIFT 特征提取的启发,作者设计一了个新颖的模块来提取尺度,形状和位置不变性的特征。尺度不变特征变换(SIFT)是计算机视觉中的特征检测算法,用于检测和描述图像中的局部特征。该算法提出了高斯表示的拉普拉斯算法,其融合了尺度空间表示和金字塔多分辨率表示。由具有相同分辨率的几个不同高斯核函数处理的标度空间表示,以及由不同分辨率的下采样处理的金字塔多分辨率表示。与SIFT中的高斯函数类似,使用Atrous卷积来获得具有相同比例但不同感受域的特征。与SIFT中的金字塔多分辨率表示类似,网络采用VGG-16 的conv3-3,conv4-3和conv5-3来提取多尺度特征。
具体而言,上下文感知金字塔特征提取模块将VGG-16中的conv3-3,conv4-3和conv5-3作为基础网络。 为了使最终提取的高级特征包含尺度和形状不变性的特征,采用具有不同扩张率的卷积,其被设置为3, 5和7以捕获多感受野场上下文信息。 然后,通过跨通道连接组合来自不同的Atrous卷积层的特征映射和1×1维度减少特征。 在此之后,获得具有上下文感知信息的三种不同比例特征,并将两个较小的特征上采样到最大的一个。 最后通过跨渠道连接将它们组合为上下文感知金字塔特征提取模块的输出。
注意力机制
本文利用上下文感知金字塔特征提取来获得多尺度多感受域高级特征。不同特征具有不同的语义值来生成显著性图。但是大多数现有方法没有区别地集成了多尺度特征,这导致信息冗余。更重要的是,某些级别X的不准确信息会导致性能下降甚至错误预测。过滤这些功能以及更有价值的功能非常重要。根据不同层次特征的特点,采用渠道方式关注高层特征,空间注意力为低层特征选择有效特征。另外,不会对高级特征使用空间注意,因为高级特征包含高抽象语义不需要过滤空间信息。因为低级功能的不同通道之间几乎没有语义差异,所以不会对低级功能使用信道关注。