心肌灌注显像作为无创影像学技术之一,为冠心病心肌缺血的诊断提供依据。本文针对心肌灌注显像图中的靶心图,基于U型网络(U-Net)提出包含多层转置卷积上采样拼接模块和四通路可加权通道注意力模块的分支结构,并将分支结构的输出结果与主干U-Net的输出结果进行融合,实现心肌灌注靶心图心脏缺血缺失程度部位的精确分割。实验结果表明:多层转置卷积上采样拼接模块实现了不同深度特征图的融合,有效地降低与缺失程度相似的重度稀疏程度对分割的干扰。四通路可加权通道注意力模块能进一步提高两种相似程度的区分能力及对目标边缘细节的学习能力,保留更丰富的边缘细节特征。本文所用实验数据来自天津医科大学总医院、天津泰达医院、天津第一、第三中心医院数据库,在自建数据集上雅卡尔(Jaccard)系数较U-Net提高5.00%。研究结果表明,本文模型优于目前基于U-Net进行优化的其他模型,主观评价满足临床诊断的精度要求。
引用本文: 王赫, 张如意, 孟召伟, 朱珊, 张为. 心肌灌注靶心图缺血缺失程度分割方法. 生物医学工程学杂志, 2021, 38(6): 1072-1080. doi: 10.7507/1001-5515.202102019 复制
引言
心脏作为人体的重要器官,以泵血的方式向全身供应氧和各种营养物质,并带走代谢终产物使人体维持正常代谢的功能。据《中国心血管健康与疾病报告2019》公布,心血管疾病死亡率居城乡居民死亡率首位,且患病率仍处于上升阶段[1],而心血管疾病以冠心病最为常见[2]。大量患有冠心病的患者由于未及时发现病情,错过最佳治疗时机,因此普及对心脏的检测能尽早对冠心病患者实施干预,延缓病程进展,并降低病情进一步发展带来的经济上的损失。
心肌灌注显像(myocardial perfusion imaging,MPI)是辅助冠心病心肌缺血诊断、危险度分层和治疗决策制定的主要无创性影像学技术之一。该技术弥补了诸如电子计算机断层扫描(computed tomography,CT)冠状动脉造影和磁共振成像(magnetic resonance imaging,MRI)等心脏检查方法的缺陷,并且在冠心病的诊断、分层和预后中发挥重要作用[3]。对于早期且轻度的冠心病患者,在血管造影术之前预先采用MPI方式进行诊断,可以减少侵入式冠状动脉造影成像对患者身体的影响以及相应的检查费用,且可以作为制定适当治疗计划的依据[4-6]。MPI成像包括若干张三个轴向的心脏切片图以及一张靶心图。经验丰富的影像专家通常对轴向进行分析后,通过靶心图对诊断结果进行相互验证。早期针对MPI图像的检测,主要包括定量图像分析方法、基于案例的推理、基于规则的专家系统和模糊理论集[7-11]。近些年,一些深度学习方法利用MPI的丰富信息,进行血管重建,或联合临床定量数据以提高诊断率,并开展与专家视觉评分比较等研究。Rahmani等[12]结合不同的临床和定量数据,应用人工神经网络(artificial neural network,ANN)提高了MPI图像的诊断准确性。Alonso等[13]和Berkaya等[14]基于MPI中三个轴向图开展疾病的分类以及心源性死亡的预测。上述研究成功将深度学习应用到MPI图像的分析中,并证明其高效性和有效性,但目前基于深度学习展开的MPI研究存在两个待解决的问题:① 一些研究利用了MPI轴向图信息,但并没有针对靶心图进行研究,忽略了靶心图的信息价值;② MPI按半定量分析法中五级评分法分为:正常、轻度稀疏、中度稀疏、重度稀疏、缺失[15]。由于几种缺血程度互相嵌套无明显边界,按程度精确分割存在一定难度,因此目前几乎没有较为精确的区分不同缺血程度的研究。
2015年Ronneberger等[16]提出了U 型网络(U-Net),这促进了语义分割更广泛地应用于医学图像的处理。受其他领域如残差模块[17-18]、注意力机制[19-22]、密集连接模块[23]以及三维(three dimensions,3D)网络[24]等的启发,以U-Net为基础进行改进的网络也越来越多地应用到各种医学图像的处理上。Oktay等[25]提出添加注意力模块的U-Net (Attention U-Net)用于3D胰腺的分割;Li 等[26]提出混合密集连接U-Net(hybrid densely connected U-Net,H-DenseUNet)分割模型,该特征提取器分别采用层数不同的密集连接模块来提取特征,实现肝脏和肿瘤的分割;Ibtehaz 等[27]在特征提取器和跳跃连接路径中引入残差模块,进而提出多重残差U-Net(MultiResUNet),多个公开数据集的实验结果表明,该模型的分割效果优于U-Net。上述改进的方法大多通过增加特征提取器的层数和网络的深度来提高分割精度,但同时增加了计算成本,且大多应用于荧光显微镜图像、皮肤病、3D模态图像中器官的分割以及肿瘤的分割,几乎没有开展针对MPI靶心图处理的研究。
受上述研究的启发,本文提出一种轻量级语义分割新方法,将其应用在MPI靶心图的分割上。实现对MPI靶心图心脏缺血缺失程度部位的精确分割,以便计算缺失程度部位的面积占比,提高冠心病中心肌缺血程度的诊断精度。
1 心肌灌注靶心图缺血缺失程度分割方法
1.1 MPI靶心图数据集
本文实验数据来自患有不同程度冠心病的771位患者,其中天津医科大学总医院共235例,天津泰达医院共167例,天津市第一中心、第三中心医院分别为142例和227例。该数据库中符合缺失程度的靶心图共88张,数量占比较少。然而缺失程度的精确分割能判断出坏死心肌的部位,分割出来的面积能体现坏死心肌在整个心脏的占比大小,更具有临床意义并符合实际临床需求。且,由于缺失程度与重度稀疏程度相互弥散,二者特征相似度较大,因而将其精确分割难度较大。数据集的挑选和标注由三名影像学经验丰富的医师完成,且所有患者均签署知情同意书。本研究经天津医科大学总医院伦理委员会审查通过。为保证医学图像在现实中有真实对应的形态存在,因而没有进行任何数据增强等形式的预处理操作,研究采用的单光子发射CT机(Symbia T2 SPECT-CT,SIEMENS, 德国)不存在噪声、模糊、对比度、亮度不均、几何形态学畸变等问题。为比较方法本身的分割效果,也没有对分割结果进行任何的后处理操作。
MPI靶心图如图1所示,根据半定量分析法中的五级评分法,心脏缺血程度分为以下5种:深绿色泛黑和全黑色为缺失,绿色及浅绿色为重度稀疏,紫色偏蓝为中度稀疏,浅紫色偏橙为轻度稀疏,亮橙色为健康正常供血部位。该图有两个特征:① 各种缺血程度部位相互融合、嵌套,边界不清晰,轮廓界定不明显,重度稀疏和缺失的特征极为相似难以区分;② 囊括五种缺血程度的部位符合医学影像中患病部位的特点:分布随机、形状不规则且边缘细节较为丰富。针对以上特点本文提出新的方法,以期实现对MPI靶心图中心脏缺血缺失程度部位的精确分割。
1.2 整体结构
通常,获取到标准统一、满足研究条件的医学图像相较于一般工业领域的图像要更加困难,因而医学图像数据集往往较小。而U-Net因其轻量且仅需少量的数据即可达到较高分割精度的特点,广泛应用于医学图像的分割。U-Net的结构主要包括编码器、解码器和跳跃连接(skip connection)三部分。给U-Net分割效果带来最大提升的是skip connection结构,该结构能更充分地利用输入图像的信息,使模型快速收敛达到稳定。本文方法以U-Net为骨干,整体结构如图2所示,其中圈C表示按通道拼接(concatenate)操作,橙红色的虚线框内为本文设计的分支网络。U-Net解码器生成的特征图与编码器中对应分辨率的特征图进行skip connection操作后,再进行上采样操作。生成的特征图F1、F2、F3具有不同层次的特征,靠近像素级分类结果的特征图F3具有较浅层次的特征,U-Net网络底部的特征图F1具有较深层次的特征。本文方法的基本思想是设计分支网络,更充分地利用上述包含不同丰富信息的特征图,将分支输出Y1与U-Net的主干输出X4拼接,并通过一层卷积操作实现分支输出对主干输出细节特征的补充和融合,从而达到最佳的分割效果。分支网络主要包含两部分:① 对F1、F2、F3进行多层转置卷积上采样拼接操作;② 将拼接后的特征图X1,2,3_c输入到四通路可加权通道注意力模块(weighted channels attention module,WCAM),而模块的输出作为特征图X1,2,3_c在通道上的权重与X1,2,3_c加权。
1.3 多层转置卷积上采样拼接模块
Xie等[28]提出的整体嵌套边缘检测(holistically-nested edge detection,HED)是边缘检测问题中杰出的网络模型,对于边缘的检测和提取准确细致。受HED的启发,针对上文提到数据集具有待分割部分的轮廓无明显界定、重度稀疏和缺失的特征相似的特点,本文设计了多层转置卷积上采样拼接结构,以保留网络在不同深度提取到的特征,加大了模型对边缘信息的敏感性。该结构如图3所示,将含有不同深浅特征而大小分别为256 × 32 × 32、128 × 64 × 64、64 × 128 × 128的特征图F1、F2、F3进行卷积核相同但步长和输出填充不同的转置卷积操作,上采样至相同大小的分辨率,输出大小为1 × 256 × 256的特征图X1、X2、X3,如式(1)所示:
式中,Cl,m是卷积核,S是步长,K是卷积核大小,P是填充,OP是输出填充,h、w是特征图F的宽和高。卷积核大小为3×3,由浅到深采用的步长依次是2、4、8,输出填充依次是1、1、5,转置卷积的输出X1、X2、X3 经concatenate后经加权通道注意力模块对通道进行加权操作,实现对边缘信息的最大化提取,对轮廓界定不明显的目标实现更精确的分割。由于上采样后将特征图通道数分别由256、128、64统一调整为1,因此多层转置卷积上采样结构仅引入少量参数和计算量,但实验结果表明该结构的引入使分割精度得到了明显的提升。
1.4 四通路可加权通道注意力模块
Woo等[29]提出的卷积注意力模块(convolutional block attention module,CBAM)是经典的注意力机制模块,包含空间注意力和通道注意力两个子模块,其中通道注意力子模块将输入的大小为c × h × w(其中,c为通道数,h为高度,w为宽度)的特征图F分别送入两条通路进行处理:① 经全局最大池化操作,输出大小为c × 1 × 1的Fmp,再经两层卷积和激活操作生成特征图Fmp_c;② 经全局平均池化操作,输出大小为c × 1 × 1的Fap,再经两层卷积和激活操作生成特征图Fap_c。最后将Fmp_c、Fap_c逐像素相加,再进行S型生长曲线(sigmoid)处理输出最后的Y。这样并行的连接方式比全局平均池化和全局最大池化中任何一种单独操作丢失的信息更少,效果更好,对于目标的细节信息保留得更完整。受到CBAM中通道注意力子模块的启发,本文提出了WCAM,结构如图4所示。考虑到将输入特征图直接全局平均池化和全局最大池化到宽度和高度为1保留下来的细节比较有限,因此本文方法额外增加了两个通路。将输入特征图M进行全局平均池化和全局最大池化操作,生成大小为c×3×3的特征图 Map3和Mmp3,再分别通过卷积核为3 × 3和1 × 1的卷积层以及修正线性单元(rectified linear unit, ReLU)激活,生成大小为c × 1 × 1的特征图Map3_c和Mmp3_c,通过增大全局池化层输出的特征图尺寸,保留更多信息。核为3 × 3的卷积层也可以在模型学习过程中,对池化后特征图的每一个像素值以卷积的方式加权。最后将四个通路输出的特征图Map1_c、Mmp1_c、Map3_c和Mmp3_c以一定的权重进行加权以达到最精确的分割效果,输出特征图Mout如式(2)所示:
式(2)中,AvgPool_n,MaxPool_n分别为将特征图的大小平均池化,最大池化到n × n的操作,Conv2d_n表示卷积核为n × n的卷积操作,n分别取1和3,后面实验令α、β = 1.0, γ、δ = 0.5。
2 实验结果与分析
2.1 客观评价指标及训练细节
语义分割的效果主要从两方面评价:主观感受的定性评价和指标系数的定量客观评价。本文采用雅卡尔(Jaccard)系数在客观角度对分割效果进行评价。
Jaccard系数[30] 是一种集合相似度度量函数,用来比较有限样本集A,B之间的相似性与差异性,如式(3)所示。Jaccard系数越大,A与B两集合的相似程度越高。
本文实验采用二值交叉熵损失作为训练方法的损失函数,利用自适应矩估计(adaptive moment estimation,Adam)算法为训练过程优化,采用学习率衰减策略,起始为0.005,在50轮(epoch)后每20轮衰减一半,批处理个数为8,图形处理器(graphics processing unit,GPU)(Tesla P40, NVIDIA Corporation,美国)加速训练过程,统一计算设备架构(compute unified device architecture,CUDA)版本10.0。
2.2 MPI靶心图的实验结果及分析
本节主要介绍本文方法与一些基于U-Net最新的分割方法在自建MPI靶心图数据集上的训练和测试结果,并通过Jaccard指标对网络性能进行客观评价,通过分析分割结果图对网络性能进行主观评价。由于数据集的规模较小,因而将数据集随机划分为十份,采用十折交叉验证进行试验。以下实验均在相同训练参数和实验环境下复现,结果如表1所示,本文方法 Jaccard高于U-Net 5.00%,在MPI靶心图数据集上表现最好,且参数量是表现同样出色的16层H-DenseUNet(H-DenseUNet-16)的51.6%,与U-Net参数量基本相同。
同时,在对分割输出结果的主观分析中,本文方法在针对边缘界定模糊、颜色分布不均匀的目标分割中表现出色。MPI靶心图分割难点在于精确地判断出每种患病程度,因此排除相似程度之间的干扰,正确判断缺失程度并将其精确分割是至关重要的。本文方法较其他方法表现出色的方面体现在两点:① 通过有限的数据训练,能成功排除重度稀疏程度与缺失程度相互融合嵌套,对其产生的相似性干扰,较为精确地分割出缺失程度部位;② 对于边界信息丰富的目标,能保留更多的边缘细节,分割结果更精确。
如图5所示,第一张图是靶心图原图,图中黄色框包含重度稀疏的程度,该部位与缺失程度部位彼此嵌套,很难界定。第二张图是专业医师标注的标签,图中绿色框与原图中黄色框对应,将难以界定的分割难点区域标出,后面的图分别是不同的网络分割的结果图,图片下方注明了对应的网络名称。本文方法的结果将上述分割难点区域用红色的框标出。本文方法应用少量有限的数据对网络进行训练,最终将缺失程度精确分割。而其它几种方法都没有成功区分出两种程度的差异,表明本文方法在缺血程度的区分和相似程度抗干扰能力上优于其他三种方法。
如图6所示,图片的标注和顺序同图5相同,五种方法全部将重度稀疏和缺失两种程度区分出来,但对分割结果保留的细节各有不同,经过与原图和标签的对比可见,本文方法保留的细节更多,分割精度更高, Attention U-Net对于下半部分的分割不太准确,而MultiResUNet、H-DenseUNet-16对于上半部分的分割效果不太准确。
实验证明,本文方法针对数据数量有限、目标边界界定较为模糊、心脏不同缺血程度相互嵌套的数据集,能充分学习更多的边缘细节特征,并且可以合理区分缺失程度和重度稀疏程度,最终得到相对精确的分割结果,模型参数量小且表现优异。
2.3 消融实验
为了解本文方法各个部分的贡献,本小节采用十折交叉验证法进行消融实验,并从客观和主观分析每个结构的效果。如表2所示,在U-Net的基础上增加多层转置卷积上采样拼接模块后Jaccard提高了3.5%,增加 WCAM后提高了1.5%,同时比增加CBAM中通道注意力子模块提高了0.9%。客观指标充分证明了多层转置卷积上采样拼接模块和WCAM的有效性,同时证明在MPI靶心图数据集上,WCAM较CBAM中通道注意力子模块效果更好。
如图7所示,第一张为靶心图原图,图中黄色框是易产生错误分割的重度稀疏干扰。第二张是专业医师标注的标签,其中绿色框对应于原图黄色框中干扰部分的位置。后面的几张图分别是U-Net以及在其基础上增加不同模块后网络的分割结果,图片下方注明了添加的模块名称,图中的红色框对应原图中方框内的干扰所在的位置。从实验结果可以看出,U-Net的分割结果中红色框里的面积较大,而增加了多层转置卷积上采样拼接模块的方法中红框内的面积明显减小,但是该子图的图片下部分将一些重度稀疏干扰分割出来,“多层转置卷积上采样拼接模块 + CBAM”的方法将干扰面积进一步减小,到本文方法成功排除干扰,得到与标签极为接近的分割结果。
如图8所示,第一张图为靶心图原图,图中黄色框中的部分是边缘细节丰富的区域。第二张是专业医师标注的标签,图中绿色框对应于原图黄色框中边缘细节丰富的区域。后面几张图同图7顺序相同,图片下方注明了添加的模块名称,图中红色框对应于原图中边缘细节丰富的位置。从U-Net到增加多层转置卷积上采样拼接模块的方法到增加CBAM,再到本文方法,红框中分割结果的形状变化越来越接近标签,说明后者比前者学习到更多的细节,从只增加多层转置卷积上采样拼接模块分割结果中可以看到方框中已经保留了一些细节,而本文方法对于方框中目标的边界细节保留最为细致。
本小节实验从客观和主观两方面证明,多层转置卷积上采样拼接模块和WCAM对MPI靶心图分割的有效性,同时证明WCAM对于细节的提取效果优于CBAM。多层转置卷积上采样拼接模块能有效减少MPI靶心图中重度稀疏程度的干扰,更好地学习到两种缺血程度的区别。加入WCAM可进一步甚至排除这种干扰,精确地分割出心脏缺血缺失程度,并且能学习和保留更多边界细节,达到和标签最吻合的分割效果。
3 结论
本文基于U-Net提出包含多层转置卷积上采样拼接模块和WCAM的轻量分支结构,并将分支结构的输出结果与主干U-Net的输出结果进行融合,成功实现对MPI靶心图数据集心脏缺血缺失程度部位的精确分割。医学数据本身稀缺珍贵,文中自建MPI靶心图数据集经三位经验丰富的影像医师标注,实验具有实际临床意义,满足医学诊断需求。大量实验证明,本文方法较现有基于U-Net的分割方法更为出色。此外,本文方法可用于进一步精确计算缺失程度的缺血部位面积占比,从而更为精确地给出辅助诊断意见及治疗方案。
利益冲突声明:本文全体作者均声明不存在利益冲突。
引言
心脏作为人体的重要器官,以泵血的方式向全身供应氧和各种营养物质,并带走代谢终产物使人体维持正常代谢的功能。据《中国心血管健康与疾病报告2019》公布,心血管疾病死亡率居城乡居民死亡率首位,且患病率仍处于上升阶段[1],而心血管疾病以冠心病最为常见[2]。大量患有冠心病的患者由于未及时发现病情,错过最佳治疗时机,因此普及对心脏的检测能尽早对冠心病患者实施干预,延缓病程进展,并降低病情进一步发展带来的经济上的损失。
心肌灌注显像(myocardial perfusion imaging,MPI)是辅助冠心病心肌缺血诊断、危险度分层和治疗决策制定的主要无创性影像学技术之一。该技术弥补了诸如电子计算机断层扫描(computed tomography,CT)冠状动脉造影和磁共振成像(magnetic resonance imaging,MRI)等心脏检查方法的缺陷,并且在冠心病的诊断、分层和预后中发挥重要作用[3]。对于早期且轻度的冠心病患者,在血管造影术之前预先采用MPI方式进行诊断,可以减少侵入式冠状动脉造影成像对患者身体的影响以及相应的检查费用,且可以作为制定适当治疗计划的依据[4-6]。MPI成像包括若干张三个轴向的心脏切片图以及一张靶心图。经验丰富的影像专家通常对轴向进行分析后,通过靶心图对诊断结果进行相互验证。早期针对MPI图像的检测,主要包括定量图像分析方法、基于案例的推理、基于规则的专家系统和模糊理论集[7-11]。近些年,一些深度学习方法利用MPI的丰富信息,进行血管重建,或联合临床定量数据以提高诊断率,并开展与专家视觉评分比较等研究。Rahmani等[12]结合不同的临床和定量数据,应用人工神经网络(artificial neural network,ANN)提高了MPI图像的诊断准确性。Alonso等[13]和Berkaya等[14]基于MPI中三个轴向图开展疾病的分类以及心源性死亡的预测。上述研究成功将深度学习应用到MPI图像的分析中,并证明其高效性和有效性,但目前基于深度学习展开的MPI研究存在两个待解决的问题:① 一些研究利用了MPI轴向图信息,但并没有针对靶心图进行研究,忽略了靶心图的信息价值;② MPI按半定量分析法中五级评分法分为:正常、轻度稀疏、中度稀疏、重度稀疏、缺失[15]。由于几种缺血程度互相嵌套无明显边界,按程度精确分割存在一定难度,因此目前几乎没有较为精确的区分不同缺血程度的研究。
2015年Ronneberger等[16]提出了U 型网络(U-Net),这促进了语义分割更广泛地应用于医学图像的处理。受其他领域如残差模块[17-18]、注意力机制[19-22]、密集连接模块[23]以及三维(three dimensions,3D)网络[24]等的启发,以U-Net为基础进行改进的网络也越来越多地应用到各种医学图像的处理上。Oktay等[25]提出添加注意力模块的U-Net (Attention U-Net)用于3D胰腺的分割;Li 等[26]提出混合密集连接U-Net(hybrid densely connected U-Net,H-DenseUNet)分割模型,该特征提取器分别采用层数不同的密集连接模块来提取特征,实现肝脏和肿瘤的分割;Ibtehaz 等[27]在特征提取器和跳跃连接路径中引入残差模块,进而提出多重残差U-Net(MultiResUNet),多个公开数据集的实验结果表明,该模型的分割效果优于U-Net。上述改进的方法大多通过增加特征提取器的层数和网络的深度来提高分割精度,但同时增加了计算成本,且大多应用于荧光显微镜图像、皮肤病、3D模态图像中器官的分割以及肿瘤的分割,几乎没有开展针对MPI靶心图处理的研究。
受上述研究的启发,本文提出一种轻量级语义分割新方法,将其应用在MPI靶心图的分割上。实现对MPI靶心图心脏缺血缺失程度部位的精确分割,以便计算缺失程度部位的面积占比,提高冠心病中心肌缺血程度的诊断精度。
1 心肌灌注靶心图缺血缺失程度分割方法
1.1 MPI靶心图数据集
本文实验数据来自患有不同程度冠心病的771位患者,其中天津医科大学总医院共235例,天津泰达医院共167例,天津市第一中心、第三中心医院分别为142例和227例。该数据库中符合缺失程度的靶心图共88张,数量占比较少。然而缺失程度的精确分割能判断出坏死心肌的部位,分割出来的面积能体现坏死心肌在整个心脏的占比大小,更具有临床意义并符合实际临床需求。且,由于缺失程度与重度稀疏程度相互弥散,二者特征相似度较大,因而将其精确分割难度较大。数据集的挑选和标注由三名影像学经验丰富的医师完成,且所有患者均签署知情同意书。本研究经天津医科大学总医院伦理委员会审查通过。为保证医学图像在现实中有真实对应的形态存在,因而没有进行任何数据增强等形式的预处理操作,研究采用的单光子发射CT机(Symbia T2 SPECT-CT,SIEMENS, 德国)不存在噪声、模糊、对比度、亮度不均、几何形态学畸变等问题。为比较方法本身的分割效果,也没有对分割结果进行任何的后处理操作。
MPI靶心图如图1所示,根据半定量分析法中的五级评分法,心脏缺血程度分为以下5种:深绿色泛黑和全黑色为缺失,绿色及浅绿色为重度稀疏,紫色偏蓝为中度稀疏,浅紫色偏橙为轻度稀疏,亮橙色为健康正常供血部位。该图有两个特征:① 各种缺血程度部位相互融合、嵌套,边界不清晰,轮廓界定不明显,重度稀疏和缺失的特征极为相似难以区分;② 囊括五种缺血程度的部位符合医学影像中患病部位的特点:分布随机、形状不规则且边缘细节较为丰富。针对以上特点本文提出新的方法,以期实现对MPI靶心图中心脏缺血缺失程度部位的精确分割。
1.2 整体结构
通常,获取到标准统一、满足研究条件的医学图像相较于一般工业领域的图像要更加困难,因而医学图像数据集往往较小。而U-Net因其轻量且仅需少量的数据即可达到较高分割精度的特点,广泛应用于医学图像的分割。U-Net的结构主要包括编码器、解码器和跳跃连接(skip connection)三部分。给U-Net分割效果带来最大提升的是skip connection结构,该结构能更充分地利用输入图像的信息,使模型快速收敛达到稳定。本文方法以U-Net为骨干,整体结构如图2所示,其中圈C表示按通道拼接(concatenate)操作,橙红色的虚线框内为本文设计的分支网络。U-Net解码器生成的特征图与编码器中对应分辨率的特征图进行skip connection操作后,再进行上采样操作。生成的特征图F1、F2、F3具有不同层次的特征,靠近像素级分类结果的特征图F3具有较浅层次的特征,U-Net网络底部的特征图F1具有较深层次的特征。本文方法的基本思想是设计分支网络,更充分地利用上述包含不同丰富信息的特征图,将分支输出Y1与U-Net的主干输出X4拼接,并通过一层卷积操作实现分支输出对主干输出细节特征的补充和融合,从而达到最佳的分割效果。分支网络主要包含两部分:① 对F1、F2、F3进行多层转置卷积上采样拼接操作;② 将拼接后的特征图X1,2,3_c输入到四通路可加权通道注意力模块(weighted channels attention module,WCAM),而模块的输出作为特征图X1,2,3_c在通道上的权重与X1,2,3_c加权。
1.3 多层转置卷积上采样拼接模块
Xie等[28]提出的整体嵌套边缘检测(holistically-nested edge detection,HED)是边缘检测问题中杰出的网络模型,对于边缘的检测和提取准确细致。受HED的启发,针对上文提到数据集具有待分割部分的轮廓无明显界定、重度稀疏和缺失的特征相似的特点,本文设计了多层转置卷积上采样拼接结构,以保留网络在不同深度提取到的特征,加大了模型对边缘信息的敏感性。该结构如图3所示,将含有不同深浅特征而大小分别为256 × 32 × 32、128 × 64 × 64、64 × 128 × 128的特征图F1、F2、F3进行卷积核相同但步长和输出填充不同的转置卷积操作,上采样至相同大小的分辨率,输出大小为1 × 256 × 256的特征图X1、X2、X3,如式(1)所示:
式中,Cl,m是卷积核,S是步长,K是卷积核大小,P是填充,OP是输出填充,h、w是特征图F的宽和高。卷积核大小为3×3,由浅到深采用的步长依次是2、4、8,输出填充依次是1、1、5,转置卷积的输出X1、X2、X3 经concatenate后经加权通道注意力模块对通道进行加权操作,实现对边缘信息的最大化提取,对轮廓界定不明显的目标实现更精确的分割。由于上采样后将特征图通道数分别由256、128、64统一调整为1,因此多层转置卷积上采样结构仅引入少量参数和计算量,但实验结果表明该结构的引入使分割精度得到了明显的提升。
1.4 四通路可加权通道注意力模块
Woo等[29]提出的卷积注意力模块(convolutional block attention module,CBAM)是经典的注意力机制模块,包含空间注意力和通道注意力两个子模块,其中通道注意力子模块将输入的大小为c × h × w(其中,c为通道数,h为高度,w为宽度)的特征图F分别送入两条通路进行处理:① 经全局最大池化操作,输出大小为c × 1 × 1的Fmp,再经两层卷积和激活操作生成特征图Fmp_c;② 经全局平均池化操作,输出大小为c × 1 × 1的Fap,再经两层卷积和激活操作生成特征图Fap_c。最后将Fmp_c、Fap_c逐像素相加,再进行S型生长曲线(sigmoid)处理输出最后的Y。这样并行的连接方式比全局平均池化和全局最大池化中任何一种单独操作丢失的信息更少,效果更好,对于目标的细节信息保留得更完整。受到CBAM中通道注意力子模块的启发,本文提出了WCAM,结构如图4所示。考虑到将输入特征图直接全局平均池化和全局最大池化到宽度和高度为1保留下来的细节比较有限,因此本文方法额外增加了两个通路。将输入特征图M进行全局平均池化和全局最大池化操作,生成大小为c×3×3的特征图 Map3和Mmp3,再分别通过卷积核为3 × 3和1 × 1的卷积层以及修正线性单元(rectified linear unit, ReLU)激活,生成大小为c × 1 × 1的特征图Map3_c和Mmp3_c,通过增大全局池化层输出的特征图尺寸,保留更多信息。核为3 × 3的卷积层也可以在模型学习过程中,对池化后特征图的每一个像素值以卷积的方式加权。最后将四个通路输出的特征图Map1_c、Mmp1_c、Map3_c和Mmp3_c以一定的权重进行加权以达到最精确的分割效果,输出特征图Mout如式(2)所示:
式(2)中,AvgPool_n,MaxPool_n分别为将特征图的大小平均池化,最大池化到n × n的操作,Conv2d_n表示卷积核为n × n的卷积操作,n分别取1和3,后面实验令α、β = 1.0, γ、δ = 0.5。
2 实验结果与分析
2.1 客观评价指标及训练细节
语义分割的效果主要从两方面评价:主观感受的定性评价和指标系数的定量客观评价。本文采用雅卡尔(Jaccard)系数在客观角度对分割效果进行评价。
Jaccard系数[30] 是一种集合相似度度量函数,用来比较有限样本集A,B之间的相似性与差异性,如式(3)所示。Jaccard系数越大,A与B两集合的相似程度越高。
本文实验采用二值交叉熵损失作为训练方法的损失函数,利用自适应矩估计(adaptive moment estimation,Adam)算法为训练过程优化,采用学习率衰减策略,起始为0.005,在50轮(epoch)后每20轮衰减一半,批处理个数为8,图形处理器(graphics processing unit,GPU)(Tesla P40, NVIDIA Corporation,美国)加速训练过程,统一计算设备架构(compute unified device architecture,CUDA)版本10.0。
2.2 MPI靶心图的实验结果及分析
本节主要介绍本文方法与一些基于U-Net最新的分割方法在自建MPI靶心图数据集上的训练和测试结果,并通过Jaccard指标对网络性能进行客观评价,通过分析分割结果图对网络性能进行主观评价。由于数据集的规模较小,因而将数据集随机划分为十份,采用十折交叉验证进行试验。以下实验均在相同训练参数和实验环境下复现,结果如表1所示,本文方法 Jaccard高于U-Net 5.00%,在MPI靶心图数据集上表现最好,且参数量是表现同样出色的16层H-DenseUNet(H-DenseUNet-16)的51.6%,与U-Net参数量基本相同。
同时,在对分割输出结果的主观分析中,本文方法在针对边缘界定模糊、颜色分布不均匀的目标分割中表现出色。MPI靶心图分割难点在于精确地判断出每种患病程度,因此排除相似程度之间的干扰,正确判断缺失程度并将其精确分割是至关重要的。本文方法较其他方法表现出色的方面体现在两点:① 通过有限的数据训练,能成功排除重度稀疏程度与缺失程度相互融合嵌套,对其产生的相似性干扰,较为精确地分割出缺失程度部位;② 对于边界信息丰富的目标,能保留更多的边缘细节,分割结果更精确。
如图5所示,第一张图是靶心图原图,图中黄色框包含重度稀疏的程度,该部位与缺失程度部位彼此嵌套,很难界定。第二张图是专业医师标注的标签,图中绿色框与原图中黄色框对应,将难以界定的分割难点区域标出,后面的图分别是不同的网络分割的结果图,图片下方注明了对应的网络名称。本文方法的结果将上述分割难点区域用红色的框标出。本文方法应用少量有限的数据对网络进行训练,最终将缺失程度精确分割。而其它几种方法都没有成功区分出两种程度的差异,表明本文方法在缺血程度的区分和相似程度抗干扰能力上优于其他三种方法。
如图6所示,图片的标注和顺序同图5相同,五种方法全部将重度稀疏和缺失两种程度区分出来,但对分割结果保留的细节各有不同,经过与原图和标签的对比可见,本文方法保留的细节更多,分割精度更高, Attention U-Net对于下半部分的分割不太准确,而MultiResUNet、H-DenseUNet-16对于上半部分的分割效果不太准确。
实验证明,本文方法针对数据数量有限、目标边界界定较为模糊、心脏不同缺血程度相互嵌套的数据集,能充分学习更多的边缘细节特征,并且可以合理区分缺失程度和重度稀疏程度,最终得到相对精确的分割结果,模型参数量小且表现优异。
2.3 消融实验
为了解本文方法各个部分的贡献,本小节采用十折交叉验证法进行消融实验,并从客观和主观分析每个结构的效果。如表2所示,在U-Net的基础上增加多层转置卷积上采样拼接模块后Jaccard提高了3.5%,增加 WCAM后提高了1.5%,同时比增加CBAM中通道注意力子模块提高了0.9%。客观指标充分证明了多层转置卷积上采样拼接模块和WCAM的有效性,同时证明在MPI靶心图数据集上,WCAM较CBAM中通道注意力子模块效果更好。
如图7所示,第一张为靶心图原图,图中黄色框是易产生错误分割的重度稀疏干扰。第二张是专业医师标注的标签,其中绿色框对应于原图黄色框中干扰部分的位置。后面的几张图分别是U-Net以及在其基础上增加不同模块后网络的分割结果,图片下方注明了添加的模块名称,图中的红色框对应原图中方框内的干扰所在的位置。从实验结果可以看出,U-Net的分割结果中红色框里的面积较大,而增加了多层转置卷积上采样拼接模块的方法中红框内的面积明显减小,但是该子图的图片下部分将一些重度稀疏干扰分割出来,“多层转置卷积上采样拼接模块 + CBAM”的方法将干扰面积进一步减小,到本文方法成功排除干扰,得到与标签极为接近的分割结果。
如图8所示,第一张图为靶心图原图,图中黄色框中的部分是边缘细节丰富的区域。第二张是专业医师标注的标签,图中绿色框对应于原图黄色框中边缘细节丰富的区域。后面几张图同图7顺序相同,图片下方注明了添加的模块名称,图中红色框对应于原图中边缘细节丰富的位置。从U-Net到增加多层转置卷积上采样拼接模块的方法到增加CBAM,再到本文方法,红框中分割结果的形状变化越来越接近标签,说明后者比前者学习到更多的细节,从只增加多层转置卷积上采样拼接模块分割结果中可以看到方框中已经保留了一些细节,而本文方法对于方框中目标的边界细节保留最为细致。
本小节实验从客观和主观两方面证明,多层转置卷积上采样拼接模块和WCAM对MPI靶心图分割的有效性,同时证明WCAM对于细节的提取效果优于CBAM。多层转置卷积上采样拼接模块能有效减少MPI靶心图中重度稀疏程度的干扰,更好地学习到两种缺血程度的区别。加入WCAM可进一步甚至排除这种干扰,精确地分割出心脏缺血缺失程度,并且能学习和保留更多边界细节,达到和标签最吻合的分割效果。
3 结论
本文基于U-Net提出包含多层转置卷积上采样拼接模块和WCAM的轻量分支结构,并将分支结构的输出结果与主干U-Net的输出结果进行融合,成功实现对MPI靶心图数据集心脏缺血缺失程度部位的精确分割。医学数据本身稀缺珍贵,文中自建MPI靶心图数据集经三位经验丰富的影像医师标注,实验具有实际临床意义,满足医学诊断需求。大量实验证明,本文方法较现有基于U-Net的分割方法更为出色。此外,本文方法可用于进一步精确计算缺失程度的缺血部位面积占比,从而更为精确地给出辅助诊断意见及治疗方案。
利益冲突声明:本文全体作者均声明不存在利益冲突。