论文主体思路

论文主要贡献

  1. U2 -Net,用于显著目标检测(SOD)。
  2. U2 -Net的架构是一个两层嵌套的u型结构。该设计具有以下优点:(1)由于在我们提出的残差u块(RSU)中混合了不同大小的接受域,它能够从不同尺度捕获更多的上下文信息;(2)由于在这些残差u块中使用池化操作,它增加了整个架构的深度,而不会显著增加计算成本。这种架构使我们能够从头开始训练深度网络,而无需使用图像分类任务中的主干。
  3. 大多数SOD网络的设计都有一个共同的模式[18,27,41,6],即注重充分利用现有主干提取的深度特征,如Alexnet[17]、VGG[35]、ResNet[12]、ResNeXt[44]、DenseNet[15]等。然而,这些主干最初都是为图像分类而设计的。它们提取的特征是语义的代表,而不是局部细节和全局对比信息,这是显著性检测所必需的。
  4. 关于SOD的网络架构还有一些问题。首先,它们往往过于复杂。这部分是由于在现有主干中添加了额外的特征聚合模块,以从这些主干中提取多级显著性特征。其次,现有主干通常通过牺牲特征图的高分辨率来实现更深层次的体系结构。为了在可承受的内存和计算成本下运行这些深度模型,特征图在早期阶段被缩小到较低的分辨率。例如,在ResNet和DenseNet[15]的早期层,使用步幅为2的卷积,然后使用步幅为2的maxpooling,将特征映射的大小减少到四分之一。
  5. U2 -Net是为SOD设计的两层嵌套u型结构,不使用任何来自图像分类的预训练主干。它可以从零开始训练,以获得有竞争力的表现。其次,这种新颖的架构可以在不显著增加内存和计算成本的情况下,使网络更深入,获得高分辨率。这是通过嵌套的u结构实现的:在底层,我们设计了一种新的残差u块(RSU),它能够在不降低特征映射分辨率的情况下提取阶段内的多尺度特征;在顶层,有一个类似U-Net的结构,其中每个阶段都由一个RSU块填充。两级配置导致嵌套的u结构(见图5)。我们的U2 -Net (176.3 MB)在六个公共数据集上实现了与最先进(SOTA)方法的竞争性能,并在1080Ti GPU上实时运行(30 FPS,输入大小为320×320×3)。为了便于在计算和内存受限的环境中使用我们的设计,我们提供了U2 -Net的一个小版本,称为U2 -Net (4.7 MB)。

各种模型大小的比较

  1. U2 -Net的模型尺寸和性能与其他最先进的SOD模型的比较。maxFβ测量在数据集ECSSD[46]上计算。红星表示我们的U2 -Net (Ours) (176.3 MB),蓝星表示我们的小版本U2 -Net (Oursy) (4.7 MB)。

Residual U-blocks

  1. 现有卷积块和我们提出的残差u块RSU的说明:(a)普通卷积块PLN, (b)类残差块RES, (c)类稠密块DSE, (d)类初始块INC和(e)我们的残差u块RSU。

  1. 剩余块与我们的RSU的比较。
  2. 受U-Net的启发,我们提出了一种新的残差u块RSU来捕捉阶段内的多尺度特征。RSU-L(Cin;M;Cout)如图2(e)所示,其中L为编码器层数,Cin、Cout分别为输入、输出通道,M为RSU内层通道数。因此,我们的RSU主要由三个部分组成:(i)输入卷积层,将输入特征映射x (H×W ×Cin)变换为通道为Cout的中间映射F1(x)。这是一个用于局部特征提取的普通卷积层。(ii)高度为L的类似U- net的对称编码器-解码器结构,以中间特征映射F1(x)为输入,学习提取和编码多尺度上下文信息U(F1(x))。U表示U- net型结构,如图2(e)所示。L越大,剩余u块(RSU)越深,池化操作越多,接受域范围越大,局部和全局特征越丰富。配置此参数可以从任意空间分辨率的输入特征映射中提取多尺度特征。从逐渐下采样的特征图中提取多尺度特征,通过逐级上采样、级联和卷积编码成高分辨率特征图。这个过程减轻了大尺度直接上采样造成的精细细节损失。(iii)通过求和F1(x) +U(F1(x))融合局部特征和多尺度特征的残差连接。
  3. RSU与残差块在设计上的主要区别在于,RSU用类似U- net的结构代替了普通的单流卷积,并用权值层变换后的局部特征代替了原始特征:HRSU (x) = U(F1(x))+F1(x),其中U表示图2(e)所示的多层U结构。这种设计变化使网络能够直接从每个残差块中提取多个尺度的特征。更值得注意的是,由于u结构的计算开销很小,因为大多数操作都应用在下采样的特征映射上。

U2 -Net的架构

  1. U2 -Net架构说明。主要架构是一个类似u网的编码器-解码器,其中每个阶段由我们新提出的残差u块(RSU)组成。例如,en1基于图2(e)所示的RSU块。表1最后两行给出了各阶段RSU模块的详细配置。
  2. 我们的U2 -Net是一个两层嵌套u型结构,如图5所示。它的顶层是一个由11级组成的大u型结构(图5中的立方体),每个级都由一个配置良好的剩余u块(RSU)填充(底层u型结构)。因此,嵌套的u型结构使得阶段内多尺度特征的提取和阶段间多层次特征的聚合更加高效。
  3. U2 -Net主要由三部分组成:(1)六级编码器,(2)五级解码器,(3)与解码器级和最后一个编码器级相连的显著性图融合模块。
  4. (i)在编码器阶段En 1、En 2、En 3和En 4,我们分别使用RSU-7、RSU-6、RSU-5和RSU-4残差u块。如前所述,“7”、“6”、“5”和“4”表示RSU块的高度(L)。L通常根据输入特征图的空间分辨率进行配置。对于高度和宽度较大的特征图,我们使用更大的L来捕获更多的大比例尺信息。En 5和En 6中特征图的分辨率相对较低,进一步降低这些特征图的采样会导致丢失有用的上下文。因此,在en5和en6阶段,使用RSU-4F,其中“F”表示RSU是一个扩展版本,其中我们用扩展卷积替换池化和上采样操作(见图5)。这意味着RSU- 4f的所有中间特征映射与其输入特征映射具有相同的分辨率。
  5. (ii)对于En 6,解码器级具有与其对称编码器级相似的结构。在de5中,我们还使用了扩展版剩余u块RSU-4F,这与编码器阶段En 5和En 6中使用的相似。每个解码器级都将其前一级和对称编码器级的上采样特征映射的拼接作为输入,如图5所示。

消融实验

为了验证U2 -Net的有效性,在以下三个方面进行了烧蚀研究:i)基本块,ii)架构和iii)主干。所有消融研究都遵循相同的实施设置。

图像分隔的结果

附录与补遗

论文中可以引用的部分

无。

关于文献

题目及期刊

题目:U2 -Net: Going Deeper with Nested U-Structure for Salient Object Detection

U2 -Net:深入使用嵌套U结构进行显著目标检测

期刊:Pattern Recognition

引用

  • Qin, Xuebin, et al. “U2-Net: Going Deeper with Nested U-Structure for Salient Object Detection.” Pattern Recognition 106 (2020): 107404. Print.

作者信息

作者:Xuebin Qin,Zichen Zhang,Chenyang Huang,Masood Dehghan,Osmar R. Zaiane and Martin Jagersand

发表时间

日期:2020年

阅读时间

日期:2024年12月3日

开源代码及其它

GitHub:https://github.com/xuebinqin/U-2-Net (作者)