论文主体思路

论文主要贡献

提出了一种用于语义和实例分割的神经结构U-Net++。
通过不同深度的U-Net的有效集成来缓解未知的网络深度，使不同大小对象的分割性能得到改善，这是对固定深度U-Net的改进。这些U-Net部分共享编码器并使用深度监督同时共同学习。
重新设计U-Net++中的跳跃连接，使解码器能够灵活地融合特征，聚合译码子网络中不同语义尺度的特征，形成高度灵活的特征融合方案，这是对U-Net中只需要融合相同尺度特征图的限制性跳过连接的改进。
设计一种剪枝方案，在保持其性能的同时加快其推理速度。
我们发现同时训练嵌入在U-Net++体系结构中的多深度U-Net可以促进组成U-Nets之间的协作学习，从而比单独训练具有相同体系结构的孤立U-Nets获得更好的性能。
跳跃连接在残差网络和密集网络等现代神经结构中得到了进一步的应用，有利于梯度流，让信息更容易地在网络中流动，从而帮助训练过程中的梯度（就是误差的反馈）更好地传递下去。这种方法最终提高了分类任务中网络的整体表现，使得网络能够更准确地进行分类。
U-Net++性能的提高归功于其嵌套结构和重新设计的跳跃连接，其目的是解决U-Net的两个关键挑战: 1) 未知的最佳架构深度。2) 不必要的跳跃连接限制设计。我们使用六种不同的生物医学成像应用程序对U-Net++进行了评估，并展示了在各种最先进的语义分割骨干和实例分割元框架上的一致性能改进。
六种不同的医学图像分割数据集对U-Net++进行了评估，涵盖了多种成像模式，如计算机断层扫描(CT)、磁共振成像(MRI)和电子显微镜(EM)，并证明了(1)U-Net++在不同数据集和骨干架构的语义分割任务中始终优于基线模型;(2)在固定深度U-Net的基础上，U-Net++提高了不同大小对象的分割质量;(3) Mask RCNN++ (Un-Net++设计的Mask R-CNN)在实例分割任务上优于原始的Mask R-CNN;(4)修剪后的U-Net++模型获得了显著的加速，同时只显示出适度的性能下降。

U-Net和全卷积网络FCN的局限性

医学图像分割的最新模型是U-Net和全卷积网络(FCN)的变体，尽管这些模型取得了成功，但是它们有两个局限性：

模型的深度难以确定：
想象一下，模型的深度就像是楼层的数量。模型越深，可能在某些任务上表现得更好，但是我们并不事先知道多少层楼（即多深的模型）是最好的选择。因此，研究人员需要花费很多时间和资源去尝试不同深度的模型，或者进行大量的“架构搜索”，就像不断地测试不同高度的楼房，看哪个高度最合适。
跳过连接的限制：
在U-Net这样的模型中，有一种称为“跳过连接”的技术，可以理解为在建楼的过程中，有些地方需要用桥梁连接不同楼层。问题在于，这些桥梁只能在建筑的相同高度之间搭建（比如第3层与第3层之间），而不能在不同高度之间连接。这种限制可能导致我们不能充分利用模型的所有信息。

网络结构

如图1(g)所示，U-Net++由不同深度的U-Nets组成，这些U-Nets的解码器通过重新设计的跳过连接以相同的分辨率紧密连接。
首先，U-Net++不容易选择网络深度，因为它在其架构中嵌入了不同深度的U-Net。所有这些U-Net部分共享一个编码器，而它们的解码器相互交织在一起。通过深度监督训练U-Net++，所有组成U-Net同时训练，同时受益于共享的图像表示。这种设计不仅提高了整体分割性能，而且可以在推理时间内对模型进行修剪。在训练 U-Net++ 时，通过“深度监督”方法，所有这些 U-Net 结构会同时进行训练，并且因为它们共享相同的图像表示（编码器部分的输出），所以可以互相帮助，从而提高整体的分割效果。此外，这种设计还允许在推理时（即模型实际应用时）对模型进行“修剪”，也就是根据需要调整或简化模型，以减少计算量或提高效率。
其次，U-Net++不受不必要的限制性跳过连接的限制，只有来自编码器和解码器的相同比例的特征映射才能融合。U-Net++中引入的重新设计的跳跃连接在解码器节点上呈现不同尺度的特征图，允许聚合层决定沿着跳跃连接携带的各种特征图应该如何与解码器特征图融合。重新设计的跳线连接在U-Net++中通过密集连接解码器来实现。
从U-Net到U-Net++的演变。图中的每个节点表示一个卷积块，向下的箭头表示向下采样，向上的箭头表示向上采样，点箭头表示跳过连接。(a-d)不同深度的U型网。(e)集成体系结构，即将不同深度的U-Net组合成一个统一的体系结构。所有U-Net(部分)共享相同的编码器，但有自己的解码器。(f) U-Net+是在U-Net e的基础上，去掉原有的跳线连接，每两个相邻的节点都用一个短跳线连接，使较深的解码器向较浅的解码器发送监督信号。(g) U-Net++由U-Net e构建，通过连接解码器，形成密集连接的跳跃连接，使得特征沿跳跃连接密集传播，从而在解码器节点更灵活地融合特征。因此，U-Net++解码器中的每个节点，从水平角度来看，在相同分辨率下结合其所有前节点的多尺度特征，从垂直角度来看，从其前节点集成不同分辨率的多尺度特征，如式1所示。U-Net++的这种多尺度特征聚合逐渐综合了分割，从而提高了准确性和更快的收敛速度，正如我们在第四节中的经验结果所证明的那样。请注意，训练U-Net e需要明确的深度监督(粗体链接)，但对于U-Net+和U-Net++来说是可选的(淡色链接)。

数据集语义分割

深度监督

什么是深度监督？

深度监督（Deep Supervision） 是一种在深度学习中用于改进模型训练的方法，特别是针对深层神经网络。这种方法通过在网络的中间层（而不仅仅是在最后一层）添加额外的监督信号（也就是额外的损失函数），来帮助模型在训练过程中更好地学习特征。通常在深度神经网络中，只有网络的最后一层会输出预测结果，并根据这些结果计算损失（误差）。这种设置可能导致前几层的训练不充分，特别是在非常深的网络中，前面层的梯度会变得很小，从而影响网络的学习能力。这就是“梯度消失”问题。

关于深度监督的研究

He等人认为网络的深度d可以作为一个正则化器。Lee等人证明深度监督层可以提高隐藏层的学习能力，强制中间层学习判别特征，实现网络的快速收敛和正则化。Dense Net以隐式的方式执行类似的深度监督。深度监督也可以用在类似U-Net的架构中。deep Layer aggregation——一项同步但独立的研究，发表在CVPR-2018上。

通过结合不同分辨率特征图的预测引入深度监督，可以克服潜在的优化困难，从而达到更快的收敛速度和更强大的判别能力。Zhu等人在他们提出的体系结构中使用了八个额外的深度监督层。然而，我们的嵌套网络更适合深度监督下的训练：1)多个解码器自动生成全分辨率分割图；2)网络嵌入不同深度的U-Net，掌握多分辨率特征；3)紧密连接的特征图有助于平滑梯度流，给出相对一致的预测掩码;4)高维特征通过反向传播对每个输出产生影响，使我们能够在推理阶段对网络进行修剪。

附录与补遗

无

关于文献

题目及期刊

题目：UNet++: 重新设计跳跃连接以利用图像分割中的多尺度特征

UNet++: Redesigning Skip Connections to Exploit Multiscale Features in Image Segmentation

期刊：arXiv e-prints

作者信息

作者：Z. Zhou

发表时间

日期：2019年

阅读时间

日期：2024年9月1日

开源代码及其它

Github：https://github.com/MrGiovanni/UNetPlusPlus (作者)