本文利用影像组学的方法预测乳腺肿瘤分子标记物雌激素受体(ER)。首先采用基于相位信息的动态轮廓模型(PBAC)对乳腺图像进行分割,其次对乳腺超声图像中肿瘤的形态、纹理、小波三个方面的 404 个高通量特征进行提取并予以量化,然后利用 R 语言以及结合最大相关最小冗余(mRMR)准则的遗传算法进行特征筛选,最后利用支持向量机(SVM)和 AdaBoost 进行分类判别,实现根据乳腺超声图像预测分子病理指标 ER 的目的。对 104 例临床乳腺肿瘤超声图像数据进行实验,在使用 AdaBoost 作为分类器的情况下得到了最优指标,即分子标记物 ER 的预测准确率最高可以达到 75.96%,受试者操作特性曲线下的面积(AUC)最高达到 79.39%。实验结果证明了利用影像组学方法预测乳腺癌 ER 表达情况的可行性。
引用本文: 刘桐桐, 李佳伟, 胡雨舟, 余锦华, 郭翌, 汪源源, 常才. 基于影像组学预测乳腺癌雌激素受体表达情况的可行性分析. 生物医学工程学杂志, 2017, 34(4): 597-601. doi: 10.7507/1001-5515.201611033 复制
引言
乳腺癌是全球女性最为常见的恶性肿瘤之一[1]。医学影像通过无损的检查方法,为临床医生提供人体组织的特征信息,用于指导疾病诊断[2-4]。相较于其他医学影像手段,超声检查简便、廉价、无辐射、实时并且无创,在临床上已经广泛应用于乳腺肿瘤的诊断中[5]。
乳腺肿瘤分子标记物包括雌激素受体(estrogen receptor,ER)、孕激素受体(progesterone receptor,PR)、人表皮生长因子受体 2(human epidermal growth factor receptor-2,HER2)及增殖细胞核抗原(KI67 antigen,KI67)。其中 ER 被确定为常用且有效的对乳腺肿瘤判断预后、指导内分泌治疗及化疗的分子标记物之一[6]。常用的 ER 获取方式是提取病理切片并进行检验,这种方式是有损的。
影像组学(radiomics)技术提供了一种无损估计分子标记物的新思路,它采用医学影像的高通量特征来预测生物组织的分子病理、基因等信息,包括图像的获取和重建、图像自动分割、高通量特征提取和筛选、结果分类判别等阶段。2012 年 Lambin 等[2]提出了影像组学的概念和假说。同年,Kumar 等[3]提出了影像组学的流程和若干需要注意的事项以及挑战。Aerts 等[4]在 2014 年提出了通过影像组学方法解码图像特征和肿瘤表现型的关系的方法,探索医学影像特征与分子病理学的关联。目前,已发表的工作主要集中在电子计算机断层扫描(compu-ted tomography,CT)以及磁共振成像(magnetic resonance imaging,MRI)图像中,且多针对肺癌、头颈癌、结肠癌和前列腺癌,在乳腺超声中则未有相关报道[4, 7-9]。
本文将影像组学的方法扩展到乳腺超声诊断中,利用影像组学的方法无损预测乳腺肿瘤分子标记物 ER。针对乳腺超声影像组学分析,提出有效的图像分割、特征提取、特征筛选及分类预测方案。
1 方法
本文利用影像组学的方法,研究通过乳腺超声图像对乳腺肿瘤分子标记物 ER 进行预测。该方法主要运用机器学习等技术,通过图像分割、特征提取、特征筛选和分类判别,实现根据乳腺超声图像预测分子病理指标 ER 的目标。首先采用基于相位信息的动态轮廓模型(phase-based active contour,PBAC)对乳腺超声图像进行分割,其次提取并量化乳腺超声图像的形态、纹理、小波三个方面的 404 个高通量特征,然后选择 R 语言以及结合最大相关最小冗余(minimum-redundancy-maximum-relevance,mRMR)准则的遗传算法对以上特征进行筛选,最后利用支持向量机(support vector machine,SVM)和 AdaBoost 作为分类器进行分类判别。系统框图见图 1。
1.1 基于相位信息的动态轮廓模型自动分割
常用的医学影像自动分割方法,分为基于区域的分割、边缘检测法、基于神经网络的方法、基于模糊集理论的方法、结合区域与边界技术的方法等。通过对已有的几种分割方法进行比较,最终采用蔡凌云[10]提出的 PBAC 方法。她认为在检测结构信息(如边界信息等)时,根据图像的局部相位信息进行检测会更有效。此外,基于相位信息的方法也较少受到超声图像的斑点噪声及低对比度特性的影响。为了应对图像强度的非均质性,该方法基于区域的能量项选择了可变区域拟合(region-scalable fitting,RSF)能量项,并根据局部相位信息去构建新的边界指示子。因此该方法对于不同区域都有良好的分割效果。
PBAC 模型是一种混合模型,结合图像的边界信息和区域信息,所以它的能量函数 EPBAC 由基于区域的 RSF 能量函数 ERSF 和基于相位反对称(phase asymmetry,PA)的边界能量函数 EPA 两部分组成,整体的能量函数可表达为[10]:
1.2 特征提取
影像组学技术的重点在于高通量特征的提取。本文综合多方面信息,从形态、纹理、小波三个角度,提取了 404 个高通量特征来描述乳腺肿瘤[10-15],如表 1 所示。
1.3 特征筛选
影像组学方法所要求提取的特征是大量的高通量特征,需要一个高维的特征向量。但并非所有特征对于特定的判别目标都是有用的;对于特征维度大于样本例数的情况,分类器的训练时间会变长、分类效果会被削弱,并且可能会发生过拟合、维数灾难等现象。因此,特征维度的降低和选择是十分必要的步骤。
本文对提取的 404 个特征进行了两次筛选。首先利用 R 语言画热图方法进行第一次筛选,选出有一定统计意义的特征[4]。热图是一种将独立的数据显示为有色矩阵的图,采用无监督聚类法,将相似的数据分在邻近的位置并以类似的颜色表示。这里采用欧氏距离作为类间距离算子。在 R 语言中,以 ER 为标准,计算特征与指标的相关性,得到 χ2 检验的 P 值,保留 P 值<0.05 的特征。
然后利用结合 mRMR 的遗传算法对剩余特征进行第二次筛选。特征筛选分为过滤法和封装法,过滤法是通过一定的准则对特征进行筛选,而封装法则要后续的学习算法进行效果的验证。考虑到过滤法与后续的学习算法无关,不能针对特定的分类算法选出最优子集,因此选择遗传算法。但传统的遗传算法未考虑到筛选特征的数目和不同特征之间的关系,不易得到最优解,且容易得到偏高的特征子集维数。结合 mRMR 准则的遗传算法可用以解决该问题,该方法定义了根据变量间的互信息而变化的适应度函数,利用数据内在联系评定特征子集并排序,提出新的适应度函数,定义为[10]:
其中 Rank 表示所选择特征 mRMR 排序值之和。此函数仅在分类准确率 Accuracy 高且特征排序值低时有最大值,并抑制其他情况。根据 mRMR 准则,优先选择排序值低的特征,这些特征的分辨力较强,特征重合区较小。
经过两次特征筛选,得到了一个维数较低、分辨力强的特征子集,用于分子标记物 ER 的分类判别。
1.4 分类判别
常用的分类算法分为有监督学习和无监督学习,无监督学习一般应用于无教师的情况。本研究在分类器的训练中,以 ER 的阴性和阳性为标签、高通量特征为输入、分类判别结果为输出进行学习。虽然常用的有监督学习分类方法很多,但通过实验比较发现有些分类器结构复杂参数众多,有些分类效果较差。而 SVM 收敛速度快,分类准确率高;AdaBoost 结构简单,不需要调节较多参数。因此,本文选择并比较了这两种常用的分类算法:SVM 和 AdaBoost[9]。
SVM 方法主要针对二分类问题,搜寻一个可以将两类数据点分隔开的超平面,以保证分类器错误率达到最低。最优超平面是使支持向量能够有尽可能大的间隔的平面。支持向量就是使超平面两侧的数据到超平面的间隔最小的样本组成的向量。
AdaBoost 的精髓是由多个弱分类器组成一个强分类器,以提高分类准确率。AdaBoost 对于每个弱分类器的准确率要求并不高。最后通过对训练所得的弱分类器进行线性加权组合就可以得到一个强分类器。AdaBoost 为每个弱分类器都配备了一个权重值 α,根据情况更新每个样本的权重,第一个弱分类器分类正确的样本权重会降低,分类错误的样本权重会升高,得到新的样本权重 D,并不断对权重向量 D 进行更新。直到训练错误率为 0 或者弱分类器的数目达到设定值为止,最终训练出多个弱分类器并得到相应的权重。
2 结果
2.1 环境与数据
本文对复旦大学附属肿瘤医院超声科采集到的 104 例乳腺肿瘤患者数据进行分析。每位患者的数据包括超声图像及其临床验证的分子标志物 ER 值。
为评价不同特征向量组合在不同分类器下的性能,采用多种指标来进行量化的评价。对分类器性能进行整体评估的接受者操作特性(receiver operating characteristic,ROC)曲线,使用 ROC 曲线下的面积(area under the ROC curve,AUC)进行评价。除此之外,还包括准确度(accuracy,ACC)、敏感度(sensitivity,SENS)、特异度(specificity,SPEC)、阳性预测值(positive predictive value,PPV)、阴性预测值(negative predictive value,NPV)及 Matthew 相关系数(Matthew’s correlation co-efficient,MCC)[10]。
实验中采取留一法,每次从数据集中抽取 103 例数据作训练集,剩余的 1 例作测试集。
2.2 实验结果
首先对 104 例乳腺肿瘤超声图像进行分割处理。原始图像为 DICOM 图像,先进行感兴趣区域(region of interest,ROI)选取,然后进行自动分割。由有经验的医生判断分割结果是否准确,对于自动分割结果准确性较差的图像进行手动分割,104 例数据中 61.54% 为采用 PBAC 自动分割,38.46% 采用手动分割结果。作为例子,图 2 为一例恶性乳腺肿瘤图像测试算法效果。实验结果说明 PBAC 模型的分割效果较好。
其次,本文以分割得到的 ROI 区域和边缘轮廓为输入,经过特征提取程序的运算,得到了 104 幅图像的 104×404 特征向量。
经过一次筛选特征维度从 404 下降为 76,二次筛选后下降为 38。R 语言筛选后所作的 ER 热图如图 3 所示。每一行代表一个特征,每一列代表一个患者。可以看出特征在一定程度上进行了聚类,表明了特征和分子标记物 ER 之间存在一定的相关性。
最后,对分子标记物 ER 进行分类判别。分类器的分类结果如表 2 所示,AUC 指标的最优结果以粗体表示,All_404 为未筛选的特征,R_76 为经过一次筛选的特征,R2GA_38 为经过二次筛选的特征。就结果而言,各项指标从整体来看 AdaBoost 要优于 SVM,并且 AdaBoost 的 AUC 明显大于 SVM 的 AUC。最优指标是 ER 在使用 AdaBoost 进行分类的情况下,准确率最高达到 75.96%,AUC 最高达到 79.39%。
3 结论
本文基于影像组学的方法,用 PBAC 方法实现乳腺超声图像的自动分割,提取形态、纹理、小波三个方面的 404 个特征,经过 R 语言和结合 mRMR 准则的遗传算法进行两次特征筛选,最后使用 SVM 和 AdaBoost 进行分类判别。最优指标是在使用 AdaBoost 进行分类的情况下得到的,对分子标记物 ER 的预测准确率最高达到 75.96%,AUC 最高达到 79.39%。该结果表明了影像组学方法在乳腺肿瘤超声图像领域预测分子标记物具有一定的可行性,对于用影像组学的方法对疾病进行无损可重复的预测研究有较强的指导意义。
引言
乳腺癌是全球女性最为常见的恶性肿瘤之一[1]。医学影像通过无损的检查方法,为临床医生提供人体组织的特征信息,用于指导疾病诊断[2-4]。相较于其他医学影像手段,超声检查简便、廉价、无辐射、实时并且无创,在临床上已经广泛应用于乳腺肿瘤的诊断中[5]。
乳腺肿瘤分子标记物包括雌激素受体(estrogen receptor,ER)、孕激素受体(progesterone receptor,PR)、人表皮生长因子受体 2(human epidermal growth factor receptor-2,HER2)及增殖细胞核抗原(KI67 antigen,KI67)。其中 ER 被确定为常用且有效的对乳腺肿瘤判断预后、指导内分泌治疗及化疗的分子标记物之一[6]。常用的 ER 获取方式是提取病理切片并进行检验,这种方式是有损的。
影像组学(radiomics)技术提供了一种无损估计分子标记物的新思路,它采用医学影像的高通量特征来预测生物组织的分子病理、基因等信息,包括图像的获取和重建、图像自动分割、高通量特征提取和筛选、结果分类判别等阶段。2012 年 Lambin 等[2]提出了影像组学的概念和假说。同年,Kumar 等[3]提出了影像组学的流程和若干需要注意的事项以及挑战。Aerts 等[4]在 2014 年提出了通过影像组学方法解码图像特征和肿瘤表现型的关系的方法,探索医学影像特征与分子病理学的关联。目前,已发表的工作主要集中在电子计算机断层扫描(compu-ted tomography,CT)以及磁共振成像(magnetic resonance imaging,MRI)图像中,且多针对肺癌、头颈癌、结肠癌和前列腺癌,在乳腺超声中则未有相关报道[4, 7-9]。
本文将影像组学的方法扩展到乳腺超声诊断中,利用影像组学的方法无损预测乳腺肿瘤分子标记物 ER。针对乳腺超声影像组学分析,提出有效的图像分割、特征提取、特征筛选及分类预测方案。
1 方法
本文利用影像组学的方法,研究通过乳腺超声图像对乳腺肿瘤分子标记物 ER 进行预测。该方法主要运用机器学习等技术,通过图像分割、特征提取、特征筛选和分类判别,实现根据乳腺超声图像预测分子病理指标 ER 的目标。首先采用基于相位信息的动态轮廓模型(phase-based active contour,PBAC)对乳腺超声图像进行分割,其次提取并量化乳腺超声图像的形态、纹理、小波三个方面的 404 个高通量特征,然后选择 R 语言以及结合最大相关最小冗余(minimum-redundancy-maximum-relevance,mRMR)准则的遗传算法对以上特征进行筛选,最后利用支持向量机(support vector machine,SVM)和 AdaBoost 作为分类器进行分类判别。系统框图见图 1。
1.1 基于相位信息的动态轮廓模型自动分割
常用的医学影像自动分割方法,分为基于区域的分割、边缘检测法、基于神经网络的方法、基于模糊集理论的方法、结合区域与边界技术的方法等。通过对已有的几种分割方法进行比较,最终采用蔡凌云[10]提出的 PBAC 方法。她认为在检测结构信息(如边界信息等)时,根据图像的局部相位信息进行检测会更有效。此外,基于相位信息的方法也较少受到超声图像的斑点噪声及低对比度特性的影响。为了应对图像强度的非均质性,该方法基于区域的能量项选择了可变区域拟合(region-scalable fitting,RSF)能量项,并根据局部相位信息去构建新的边界指示子。因此该方法对于不同区域都有良好的分割效果。
PBAC 模型是一种混合模型,结合图像的边界信息和区域信息,所以它的能量函数 EPBAC 由基于区域的 RSF 能量函数 ERSF 和基于相位反对称(phase asymmetry,PA)的边界能量函数 EPA 两部分组成,整体的能量函数可表达为[10]:
1.2 特征提取
影像组学技术的重点在于高通量特征的提取。本文综合多方面信息,从形态、纹理、小波三个角度,提取了 404 个高通量特征来描述乳腺肿瘤[10-15],如表 1 所示。
1.3 特征筛选
影像组学方法所要求提取的特征是大量的高通量特征,需要一个高维的特征向量。但并非所有特征对于特定的判别目标都是有用的;对于特征维度大于样本例数的情况,分类器的训练时间会变长、分类效果会被削弱,并且可能会发生过拟合、维数灾难等现象。因此,特征维度的降低和选择是十分必要的步骤。
本文对提取的 404 个特征进行了两次筛选。首先利用 R 语言画热图方法进行第一次筛选,选出有一定统计意义的特征[4]。热图是一种将独立的数据显示为有色矩阵的图,采用无监督聚类法,将相似的数据分在邻近的位置并以类似的颜色表示。这里采用欧氏距离作为类间距离算子。在 R 语言中,以 ER 为标准,计算特征与指标的相关性,得到 χ2 检验的 P 值,保留 P 值<0.05 的特征。
然后利用结合 mRMR 的遗传算法对剩余特征进行第二次筛选。特征筛选分为过滤法和封装法,过滤法是通过一定的准则对特征进行筛选,而封装法则要后续的学习算法进行效果的验证。考虑到过滤法与后续的学习算法无关,不能针对特定的分类算法选出最优子集,因此选择遗传算法。但传统的遗传算法未考虑到筛选特征的数目和不同特征之间的关系,不易得到最优解,且容易得到偏高的特征子集维数。结合 mRMR 准则的遗传算法可用以解决该问题,该方法定义了根据变量间的互信息而变化的适应度函数,利用数据内在联系评定特征子集并排序,提出新的适应度函数,定义为[10]:
其中 Rank 表示所选择特征 mRMR 排序值之和。此函数仅在分类准确率 Accuracy 高且特征排序值低时有最大值,并抑制其他情况。根据 mRMR 准则,优先选择排序值低的特征,这些特征的分辨力较强,特征重合区较小。
经过两次特征筛选,得到了一个维数较低、分辨力强的特征子集,用于分子标记物 ER 的分类判别。
1.4 分类判别
常用的分类算法分为有监督学习和无监督学习,无监督学习一般应用于无教师的情况。本研究在分类器的训练中,以 ER 的阴性和阳性为标签、高通量特征为输入、分类判别结果为输出进行学习。虽然常用的有监督学习分类方法很多,但通过实验比较发现有些分类器结构复杂参数众多,有些分类效果较差。而 SVM 收敛速度快,分类准确率高;AdaBoost 结构简单,不需要调节较多参数。因此,本文选择并比较了这两种常用的分类算法:SVM 和 AdaBoost[9]。
SVM 方法主要针对二分类问题,搜寻一个可以将两类数据点分隔开的超平面,以保证分类器错误率达到最低。最优超平面是使支持向量能够有尽可能大的间隔的平面。支持向量就是使超平面两侧的数据到超平面的间隔最小的样本组成的向量。
AdaBoost 的精髓是由多个弱分类器组成一个强分类器,以提高分类准确率。AdaBoost 对于每个弱分类器的准确率要求并不高。最后通过对训练所得的弱分类器进行线性加权组合就可以得到一个强分类器。AdaBoost 为每个弱分类器都配备了一个权重值 α,根据情况更新每个样本的权重,第一个弱分类器分类正确的样本权重会降低,分类错误的样本权重会升高,得到新的样本权重 D,并不断对权重向量 D 进行更新。直到训练错误率为 0 或者弱分类器的数目达到设定值为止,最终训练出多个弱分类器并得到相应的权重。
2 结果
2.1 环境与数据
本文对复旦大学附属肿瘤医院超声科采集到的 104 例乳腺肿瘤患者数据进行分析。每位患者的数据包括超声图像及其临床验证的分子标志物 ER 值。
为评价不同特征向量组合在不同分类器下的性能,采用多种指标来进行量化的评价。对分类器性能进行整体评估的接受者操作特性(receiver operating characteristic,ROC)曲线,使用 ROC 曲线下的面积(area under the ROC curve,AUC)进行评价。除此之外,还包括准确度(accuracy,ACC)、敏感度(sensitivity,SENS)、特异度(specificity,SPEC)、阳性预测值(positive predictive value,PPV)、阴性预测值(negative predictive value,NPV)及 Matthew 相关系数(Matthew’s correlation co-efficient,MCC)[10]。
实验中采取留一法,每次从数据集中抽取 103 例数据作训练集,剩余的 1 例作测试集。
2.2 实验结果
首先对 104 例乳腺肿瘤超声图像进行分割处理。原始图像为 DICOM 图像,先进行感兴趣区域(region of interest,ROI)选取,然后进行自动分割。由有经验的医生判断分割结果是否准确,对于自动分割结果准确性较差的图像进行手动分割,104 例数据中 61.54% 为采用 PBAC 自动分割,38.46% 采用手动分割结果。作为例子,图 2 为一例恶性乳腺肿瘤图像测试算法效果。实验结果说明 PBAC 模型的分割效果较好。
其次,本文以分割得到的 ROI 区域和边缘轮廓为输入,经过特征提取程序的运算,得到了 104 幅图像的 104×404 特征向量。
经过一次筛选特征维度从 404 下降为 76,二次筛选后下降为 38。R 语言筛选后所作的 ER 热图如图 3 所示。每一行代表一个特征,每一列代表一个患者。可以看出特征在一定程度上进行了聚类,表明了特征和分子标记物 ER 之间存在一定的相关性。
最后,对分子标记物 ER 进行分类判别。分类器的分类结果如表 2 所示,AUC 指标的最优结果以粗体表示,All_404 为未筛选的特征,R_76 为经过一次筛选的特征,R2GA_38 为经过二次筛选的特征。就结果而言,各项指标从整体来看 AdaBoost 要优于 SVM,并且 AdaBoost 的 AUC 明显大于 SVM 的 AUC。最优指标是 ER 在使用 AdaBoost 进行分类的情况下,准确率最高达到 75.96%,AUC 最高达到 79.39%。
3 结论
本文基于影像组学的方法,用 PBAC 方法实现乳腺超声图像的自动分割,提取形态、纹理、小波三个方面的 404 个特征,经过 R 语言和结合 mRMR 准则的遗传算法进行两次特征筛选,最后使用 SVM 和 AdaBoost 进行分类判别。最优指标是在使用 AdaBoost 进行分类的情况下得到的,对分子标记物 ER 的预测准确率最高达到 75.96%,AUC 最高达到 79.39%。该结果表明了影像组学方法在乳腺肿瘤超声图像领域预测分子标记物具有一定的可行性,对于用影像组学的方法对疾病进行无损可重复的预测研究有较强的指导意义。