Attention UNet论文解析

2025-02-16 14:09:4176 次浏览

最佳答案

Attention UNet论文提出了在UNet中引入注意力机制的概念,该机制在对编码器每个分辨率上的特征与解码器中对应特征进行拼接之前,使用了一个注意力模块。这个模块生成一个门控信号,用来控制不同空间位置处特征的重要性。此过程能更有效地调整特征的权重,从而提高模型的分割性能。

Attention Gates(AGs)是一种注意力机制,常用于图像分析、自然语言处理(NLP)、知识图等场景,包括图像字幕、机器翻译、分类任务等。最初的工作是通过解释输出类分数相对于输入图像的梯度来探索注意图。AGs分为硬注意力和软注意力,其中硬注意力通常不可微,依赖于参数更新的强化学习,训练较为困难。软注意力是概率性的,使用标准反向传播,不需要蒙特卡罗采样。软注意力已被应用于图像分类、句子到句子的翻译等任务,特别是在图像分类中,通道级注意力用于突出重要的特征维度,这是在2024年LSVRC图像分类挑战中表现最好的方法。Self-Attention方法被提出以消除对外部控制信息的依赖,例如在胸部x光扫描中的异常检测中使用递归硬注意力。相比之下,软注意力是概率性的,通过标准反向传播进行训练,不需要蒙特卡罗采样。

AGs在图像中的作用在于获取足够大的感受野,以便从CNN前向过程中获取语义上下文信息。特征图网格在下采样过程中逐渐减小,以捕获底层语义信息上的特征位置和全图组织之间的关系。然而,对于形状变化大的小物体,仍难以减少假阳性预测。AGs可以通过整合注意力门来提高准确性,这不需要对多个模型进行训练,也不需要大量的额外模型参数。与多阶段CNN的定位模型相比,AGs能逐步抑制不相关背景区域的特征响应,而不需要在不同模型之间裁剪ROI。

AGs的输出是输入特征图和注意力系数的元素相乘。对于每个像素,计算单个标量的注意值,通常适用于单个语义类的情况。在多语义类的情况下,建议学习多维的注意系数。这受到论文Disan: Directional self-attention network for rnn/cnn-free language understanding的启发,其中使用多维注意系数来学习句子嵌入。AGs的门向量包含上下文信息,用于削减低层特征响应,如[32]建议,它使用AGs进行自然图像分类。我们使用加性注意力来获取门控系数。虽然计算成本较高,但实验表明,它比乘法注意力具有更高的准确性。

在图像标注和分类任务中,一般采用激活函数对注意系数进行归一化,以减少输出处的稀疏激活值。然而,连续使用归一化可能导致激活值变得更稀疏。因此,我们选择了激活函数,它对AG参数的训练收敛性更好。与[11]不同,论文提出了网格注意力技术:门控信号不是全局单一矢量,而是基于图像空间信息的条件化网格信号。更重要的是,每个跳过连接的门控信号聚集了来自多个成像尺度的信息。在训练参数设置方面,执行线性变换时不使用任何空间支持(1x1x1卷积),并将输入的特征映射下采样到门控信号的维度(降维)。相应的线性变换将特征图解耦,并将其映射到较低维空间以进行门控操作。通常,低级特征图(第一个跳过连接)在门控函数中不使用,因为它们不代表高维空间中的输入数据。

将AGs合并到U-Net架构中,以突出通过跳过连接的显著特征。AGs在连接操作之前执行,以便只合并相关的激活。此外,AGs在正向传播和反向传播过程中过滤神经元的激活值。来自背景区域的梯度在后向传播时向下加权,使得较浅层次的模型参数可以根据与给定任务相关的空间区域进行更新。在U-Net中,AGs能够突出通过跳过连接的显著特征,减少跳过连接中不相关和有噪声的响应带来的问题。

代码实现参考了多个文献,包括但不限于:[1] Bottom-up and top-down attention for image captioning and vqa. [2] Neural machine translation by jointly learning to align and translate. [3] Human-level CMR image analysis with deep fully convolutional networks. [4] Improving deep pancreas segmentation in CT and MRI images via recurrent neural contextual learning and direct loss function. [5] Soft multi-organ shape models via generalized PCA: A general framework. [6] Towards image-guided pancreas and biliary endoscopy: Automatic multi-organ segmentation on abdominal CT with dense dilated networks. [7] Highway and residual networks learn unrolled iterative estimation. [8] TernaryNet: Faster deep model inference without GPUs for medical 3D segmentation using sparse and binary convolutions. [9] BRIEFnet: Deep pancreas segmentation using binary sparse convolutions. [10] Squeeze-and-excitation networks. [11] Learn to pay attention. [12] Efficient multi-scale 3D CNN with fully connected CRF for accurate brain tumour segmentation. [13] Deeply-supervised nets. [14] Evaluate the malignancy of pulmonary nodules using the 3D deep leaky noisy-or network. [15] Fully convolutional multi-scale residual densenets for cardiac segmentation and automated cardiac diagnosis using ensemble of classifiers. [16] Adam: A method for stochastic optimization. [17] Deeply-supervised nets. [18] V-net: Fully convolutional neural networks for volumetric medical image segmentation. [19] Recurrent models of visual attention. [20] 3D FCN feature driven regression forest-based pancreas localization and segmentation. [21] Multi-label whole heart segmentation using CNNs and anatomical label configurations. [22] U-net: Convolutional networks for biomedical image segmentation. [23] Data from Pancreas-CT. [24] Spatial aggregation of holistically-nested convolutional neural networks for automated pancreas localization and segmentation. [25] Hierarchical 3D fully convolutional networks for multi-organ segmentation. [26] Graph attention networks. [27] Residual attention network for image classification. [28] Non-local neural networks. [29] Disan: Directional self-attention network for rnn/cnn-free language understanding. [30] Attention is all you need. [31] Graph attention networks. [32] Residual attention network for image classification. [33] Non-local neural networks. [34] Automated abdominal multi-organ segmentation with subject-specific atlas generation. [35] Holistically-nested edge detection. [36] Learning what to look in chest X-rays with a recurrent visual attention model. [37] Recurrent saliency transformation network: Incorporating multi-stage visual cues for small organ segmentation. [38] A fixed-point model for pancreas segmentation in abdominal CT scans. [39] Hierarchical multi-organ segmentation without registration in 3D abdominal CT images.

声明:知趣百科所有作品均由用户自行上传分享,仅供网友学习交流。若您的权利被侵害,请在页面底部查找“联系我们”的链接,并通过该渠道与我们取得联系以便进一步处理。