论文主体思路

论文主要贡献

提出了一种基于嵌套和密集跳跃连接的分割架构U-Net++，背后的基本假设是，当来自编码器网络的高分辨率特征图在与来自解码器网络的相应语义丰富的特征图融合之前逐渐丰富时，该模型可以更有效地捕获前景对象的细粒度细节。我们认为，当来自解码器和编码器网络的特征映射在语义上相似时，网络将更容易处理学习任务。
作者提出的架构本质上是一个深度监督的编码器-解码器网络，其中编码器和解码器子网络通过一系列嵌套的、密集的跳过路径连接。重新设计的跳过路径旨在减少编码器和解码器子网络特征映射之间的语义差距。
将U-Net++与U-Net和宽U-Net架构在胸部低剂量CT扫描中的结节分割，显微镜图像中的细胞核分割，腹部CT扫描中的肝脏分割，结肠镜视频中的息肉分割等数据集上进行了对比评估。
这与U-Net中常用的普通跳过连接形成对比，后者直接将高分辨率特征图从编码器快速推进到解码器网络，从而导致语义上不同的特征图融合。

U-Net++背后的主要思想是在融合之前弥合编码器和解码器的特征映射之间的语义差距。
Net++与U-Net++(图1a中的黑色部分)的区别在于重新设计的连接两个子网的跳过路径(绿色和蓝色)以及深度监督的使用(红色)。
重新设计的跳过路径改变了编码器和解码器子网络的连通性。在U-Net中，编码器的特征映射直接在解码器中接收；然而，在U-Net++中，它们经历一个密集的卷积块，其卷积层的数量取决于金字塔级别。
在U-Net++中使用深度监督，使模型能够在两种模式下运行：1)精确模式，其中所有分割分支的输出都是平均的；2)快速模式，仅从一个分割分支中选择最终的分割映射，其选择决定了模型修剪的程度和速度增益。图1c显示了快速模式下分割分支的选择如何导致不同复杂性的架构。
U-Net++与原始的U-Net在三个方面不同：1)在跳过路径(绿色显示)上具有卷积层，它弥合了编码器和解码器特征映射之间的语义差距；2)箕斗路径上有密集的箕斗连接(蓝色部分)，改善了梯度流；3)具有深度监督(用红色表示)，它可以进行模型修剪，并提高或在最坏的情况下达到与仅使用一个损失层相当的性能。

特征图和网络结构：在 U-Net++ 中，网络分为两个主要部分：编码器（负责提取图像的特征）和解码器（负责将这些特征转化为最终的分割结果）。特征图就是这些提取的特征数据的“图像”。
嵌套和密集跳跃连接：U-Net++ 使用了一些特别的连接方式来帮助这些特征图更好地融合。嵌套连接就是把编码器和解码器的特征图以一种更复杂的方式结合在一起，而密集跳跃连接则是将来自不同层的特征图直接连接起来。这样做可以让网络更好地利用不同层的信息。
细粒度细节：网络的设计假设是，如果编码器提取的高分辨率细节图（即包含细节的特征图）在与解码器的特征图融合之前，经过更多的处理和丰富，那么网络就能更好地捕捉到前景对象的细节。这意味着网络能够更准确地识别和分割出图像中的细小部分。
语义上的相似性：当解码器和编码器的特征图在语义上更相似（即它们包含的信息对解决问题更一致）时，网络更容易学习和处理任务。这就像是把两个相似的特征图拼接在一起，网络就能更容易地理解和利用这些信息来做出正确的分割。