[论文阅读-12] Progressive Feature Polishing Network for Salient Object Detection
会议:AAAI-2020
简介:
现存的方法主要是关注于设计一个复杂的网络结构来吸收多层特征并过滤掉一些杂乱的特征(Existing methods mainly focus on designing a sophisticated structure to incorporate multi-level features and filter out cluttered features)。本文提出了渐进特征抛光网络(PFPN),一个简单但有效的框架,可以逐渐的将多层特征打磨的更加准确且有代表性。运用多个特征打磨模块(FPMs)使本文提出的方法不需要后处理也可以检测到显著性物体的细节特征。FPM可以通过直接吸收深层的context information并行的更新每个层次的特征。
存在的问题
-
很多方法采用U-Net类似的结果,其在特征聚合的过程中数据流是从深层网络流向浅层网络的,BMPM使用了一个双向信息传递的机制,在邻近的两层之间进行信息的双向传递
由于可能出出现长期依赖问题(RNN到LSTM的进步),非直接的多层特征传递可能效果并不好(These integrations, performed indirectly among multi-level features, may be deficient because of the incurred long-term dependency problem)。
-
一些方法通过从深层到浅层不断去补充细节来优化预测结果
预测的显著性图丢失了很多的信息,同时优化的能力也受到限制(Predicted saliency maps have lost the rich information and the capability of refinement is limited)。
-
通过人的先验知识去设计一些复杂的结构来吸收多层特征
这种过程是复杂的而且结构式缺乏普适性的(This process can be complicated and the structure might lack generality.)
贡献
- 本文提出了一个用于显著性目标检测的新的多层表示优化方法,同时还包括一个简单的PFPN框架来逐步的打磨特征(We propose a novel multi-level representation refinement method for salient object detection, as well as a simple and tidy framework PFPN to progressively polish the features in a recurrent manner)。
- 对于每一个优化步骤,文中提出了FPM来优化表征,用来保留特征图的维度和层次结构。它将深层次的语义信息直接与浅层信息进行集成避免了长期依赖问题。
网络结构
整体结构
模型由四个部分组成:backbone,两个转化模块,一系列FPM和一个融合模块。
Backbone:选择的是ResNet-101,共5个卷积块Conv-1,Res-2,Res-3,Res-4,Res-5。
为了减少特征维度,特征图都会经过一个转化模块,保证每一个经过转化模块的特征最终都会有相同的维度表示,在本文中设为256。
在将多层的特征图转化为256维度之后,将连接一系列FPM并逐渐改善它们。每一个FPM,都会将深层的特征直接连接到浅层特征并改变他们。
FPM输出的结果将连接到第二个转化模块,包括双向的上采样以及一个1*1的卷积,其目的是为了将特征图转为与原始输入的分辨率相同并减少特征图的维度到32维。融合模块用于最后将多尺寸的特征图集成并得到最终的结果。
特征打磨模块(FPM)
FPM包括N个并行的FPM模块,不同的层次之间通过短连接的形式相连,深层特征由于尺寸与浅层有所差别,会经过上采样的操作得到与当前层次的FRM一样的尺寸,后经过Concat,元素级别的加法和激活函数得到输出。
融合模块
融合模块用来集成多层特征并检测显著性物体的,多层特征经过第二个转化模块后会进行融合,然后经过两个连续的3*3大小的卷积层,最后经过一个1*1大小的卷积层以及一个sigmoid函数得到最终的结果。