提取分析孤独症谱系障碍(ASD)患者脑电(EEG)信号特征对疾病的诊断治疗具有重要意义。本研究基于递归定量分析(RQA)方法探索 ASD 儿童和正常发育(TD)儿童 EEG 信号非线性特征差异。运用 RQA 方法提取受试者各脑区 EEG 信号递归率(RR)、确定性(DET)、平均对角线长度(LADL)非线性特征,并结合支持向量机对 ASD 儿童和 TD 儿童进行分类。研究结果表明,对于全脑区(包括:顶叶、额叶、枕叶、颞叶),当选取 RR、DET、LADL 三个特征组合时,得到 84% 的最大分类准确率,对应敏感性为 76%,特异性为 92%,曲线下面积(AUC)值为 0.875;对于顶额叶区(包括:顶叶、额叶),当 RR、DET、LADL 三个特征组合时,得到最大分类准确率为 82%,对应敏感性为 72%,特异性为 92%,AUC 值为 0.781。研究结果表明,RQA 方法提取 EEG 信号的 RR、DET、LADL 特征能成为区分 ASD 儿童和 TD 儿童的客观指标,并结合机器学习方法能为 ASD 临床诊断提供辅助评价指标,同时,ASD 儿童和 TD 儿童 EEG 信号的 RR、DET、LADL 特征差异在顶额叶区具有统计学意义,本研究根据脑区所承担的功能来分析 ASD 儿童临床特征,为今后的诊断和治疗提供了参考。
引用本文: 赵杰, 张志明, 万灵燕, 李小俚, 康健楠. 基于递归定量分析方法的孤独症儿童脑电信号特征提取与分类研究. 生物医学工程学杂志, 2021, 38(4): 663-670. doi: 10.7507/1001-5515.202010082 复制
引言
孤独症谱系障碍(autism spectrum disorder,ASD)是一种由于神经系统失调导致的发育障碍疾病,其核心症状包括社会交往障碍、言语交流障碍、重复刻板行为等[1]。当前,全球范围内 ASD 的发病率显著升高,美国疾病控制与预防中心数据表明,美国所有出生于 2002 年的孩子 ASD 发病率约为 1/68[2]。迄今为止,ASD 发病确切原因还不清楚,可能与遗传、环境等因素相关[3]。目前医学上主要根据量表和行为观察进行 ASD 诊断[4],但其主观性较强,会产生一定的误诊率,因此,寻找客观指标对 ASD 患者进行准确评估至关重要。
脑电图(eletroencephalography,EEG)通过电极记录大脑细胞群自发性、节律性电活动,因其时间分辨率较高且包含大量生理和病理等信息,所以,监测 EEG 信号逐渐成为研究脑部疾病和神经认知疾病的有力手段。由于 EEG 信号所固有的非线性特性,因此应用非线性分析方法分析 EEG 信号更合适。近年来非线性分析方法如相关维数、李雅普诺夫(Lyapunov)指数、复杂度、样本熵等被广泛应用于 EEG 信号的研究[5]:Cukic 等[6]将样本熵方法应用于抑郁症患者 EEG 信号复杂度分析;李世丹[7]对比分析了线性分析方法和非线性分析方法提取酗酒者和正常人 EEG 信号特征的分类效果,结果表明基于非线性分析方法提取的 EEG 信号特征分类准确性更高。
递归图(recurrence plot,RP)由 Eckmann 等[8]于 1987 年提出,RP 可以对非线性时间序列信号的非线性特征和内在相似性特征进行定性分析,而递归定量分析(recurrence quantification analysis,RQA)方法用于对这些特征进行精确量化。近年来 RQA 方法已广泛应用于 EEG 信号研究,Pitsik 等[9]通过 RQA 方法计算 EEG 信号复杂度来监测人体运动开始时刻;Timothy 等[10]基于 RQA 方法对轻度认知障碍患者和正常人的静息态 EEG 信号进行分类,准确率达 72.2%。
ASD 属于神经发育障碍疾病,其疾病特征在 EEG 信号中有所体现,大量研究表明,根据 EEG 信号对 ASD 患者进行评估和诊断具有可行性[11-13]。RP 和 RQA 方法结合 EEG 信号已经成为分析癫痫、抑郁症等多种脑认知疾病的有力工具。目前本课题组尚未发现有研究将 RQA 方法结合 EEG 信号用以分析 ASD 的疾病特征。基于此,本研究在这一方面进行首次探索,用 RP 和 RQA 方法来提取 ASD 患者 EEG 信号特征,然后结合支持向量机(support vector machine,SVM)对特征进行分类。同时在组间水平上对比了 ASD 儿童和 TD 儿童不同脑区 EEG 信号特征的差异,并结合脑区功能来分析特征差异同 ASD 患者临床特征之间的联系,为今后 ASD 的诊断和治疗提供相应参考。
1 材料和方法
1.1 材料
1.1.1 受试者
本研究共招募 50 名儿童参与 EEG 信号采集,包括:① 在北京安定医院招募 ASD 儿童 25 名,其中男生 21 名,女生 4 名,符合 ASD 患者中男性患者人数是女性患者人数的 4~5 倍[14],年龄在 3~6 岁之间,平均年龄为(4.40 ± 0.95)岁。ASD 儿童评定方法为专业医师根据《精神病诊断与统计手册(第五版)》和《儿童孤独症评定量表》进行评定。② 招募北京当地幼儿园 25 名正常发育(typical development,TD)儿童,采集他们的 EEG 信号作为对照,其中男生 11 名,女生 14 名,年龄在 3~6 岁之间,平均年龄为(4.36 ± 0.64)岁。两组儿童年龄的差异无统计学意义(t = 0.17,P = 0.86)。本研究经过北京师范大学伦理委员会批准,并得到伦理审查通知书,在完整描述试验步骤之后,家长签署书面知情同意书,所有儿童均自愿参加本次试验。
1.1.2 EEG 信号采集
本研究用 8 通道 EEG 信号采集系统对 50 名儿童的静息态 EEG 信号进行采集,其中采样率为 1 000 Hz,Cz 电极为参考电极,采集过程中保持电极阻抗小于 50 kΩ。8 个电极记录了四个脑区的 EEG 信号:C3、C4 电极记录顶叶区的 EEG 信号;F3、F4 电极记录额叶区的 EEG 信号;O1、O2 电极记录枕叶区的 EEG 信号;T3、T4 电极记录颞叶区的 EEG 信号。
1.1.3 数据预处理
使用数据分析软件 Matlab 2018(MathWorks,美国)中的 EEGLAB 工具箱对采集的 EEG 信号进行预处理:首先将采集的 EEG 信号通过 0.5~40 Hz 的带通滤波器,然后用自适应伪迹检测算法去除工频、眼电、心电、肌电、呼吸等伪迹,去除超过阈值的序列,最后将每位儿童每个通道的 EEG 信号进行数据截选,截选长度为 5 s 的 EEG 信号进行分析。
1.2 EEG 信号特征提取
1.2.1 相空间重构
EEG 信号本质上是一维非线性时间序列信号,通过相空间重构可以将一维非线性时间序列信号映射到高维相空间中,而 RP 又可以将高维相空间信号进行可视化,所以相空间重构是研究非线性时间序列信号递归特性的基础。根据周佰成等[15]报道的 Takens 理论指出,嵌入定理可以为一维非线性时间序列信号重构一个与原动力系统在拓扑意义下一样的相空间,非线性时间序列信号的分析和预测都是在这个重构的相空间中进行的。
假设 x(n)是长度为 N 的非线性时间序列信号,n = 1,2,,N。相空间重构得到一组 m 维向量 X(n),如式(1)所示:
其中,m 是嵌入维度,τ 是延迟时间。m 和 τ 决定着相空间重构的质量,如果 τ 太小,则相空间中向量的两个坐标分量在数值上非常接近,从而无法提供两个独立的坐标分量,但 τ 太大又会出现两个坐标分量完全独立的情况,失去研究意义;同样地,如果 m 太小会出现高维状态下不相邻点在低维状态下相邻,即出现虚假近邻点,选较大 m 在理论上可行,但会增加计算量。选取 m 和 τ 的很重要,本研究分别采用虚假最临近法和互信息法确定 m 和 τ。
1.2.2 RP
RP 将高维相空间信号映射到二维空间以实现可视化,相空间重构后两时刻的向量 X(i)与 X(j)之间的距离为 Ri,j,则 RP 的矩阵形式如式(2)所示:
其中 ε 为距离阈值,||.||为欧式距离,θ[x]为海维赛德(Heaviside)函数,如式(3)所示:
对于任意两个向量 X(i)、X(j),如果它们之间的欧式距离小于距离阈值,则 Ri,j = 1,表示两个向量发生了递归,在 RP 中用黑点表示,否则 Ri,j = 0,表示两个向量没有发生递归,在 RP 中用白点表示。
如图 1 所示,绘制了 ASD 儿童和 TD 儿童 EEG 信号的 RP。由图可知,相比于 TD 儿童,ASD 儿童 RP 中的递归点要更多,且有较多的黑块,平行于对角线的黑色线段也更多。
1.2.3 RQA
RP 不能对 EEG 信号进行准确的定量分析,自从 Zbilut 等[16]提出 RQA 方法之后,涉及到的信号监测已从定性分析上升到了更加准确的定量分析,RQA 方法在分析心率信号、EEG 信号和肌电信号等人体生理信号中有广泛应用。本研究基于 RQA 方法提取了 ASD 儿童和 TD 儿童 EEG 信号的递归率(recurrence rate,RR)、确定性(determinism,DET)和平均对角线长度(length of average diagonal line,LADL)特征。
RR:指 RP 中递归点的个数占图中所有点个数的比值,其值随信号序列复杂度降低而升高,计算公式如式(4)所示:
其中,N为 RP 中横坐标或纵坐标的点数。
DET:指 RP 中平行于主对角线的线段所包含的递归点个数占总递归点个数的比值,其值随信号序列周期性增强(或者模式越单一)而升高,计算公式如式(5)所示:
上式中,l 表示线段长度,lmin 表示最小线段长度,本研究选定 lmin = 2,P(l)表示长度为 l 且平行于主对角线的线段数。
LADL:即平行于主对角线的线段所包含递归点个数的加权平均值(主对角线并不计算在内),其值随系统的确定程度增强而升高,计算公式如式(6)所示:
本研究使用以上三个特征作为 SVM 的输入数据进行分类。
1.3 SVM 分类
1.3.1 SVM
SVM 的分类原理是在特征空间中确定一个最优分类超平面,使得不同类别的样本到该超平面的距离最大,以保证较高的分类精度[17]。本研究使用 SVM 留一交叉验证法进行分类,即每次从样本集中抽取一个样本作为分类器测试集,剩余的样本作为分类器训练集,以此方式无交叉地进行总样本个数次训练和测试,然后对所有测试结果做平均,最终得到测试结果平均值。
RQA 方法提取 EEG 信号的 RR、DET、LADL 特征,将 ASD 儿童和 TD 儿童 EEG 信号的差异直观反映在这些特征值上,将这三个特征值归一化后组成特征向量输入 SVM 分类器进行留一交叉验证分类,具体流程如图 2 所示。
1.3.2 评价指标
本研究将 ASD 儿童作为正类,TD 儿童作为负类,用准确率(accuracy,Acc)、敏感性(sensitivity,Se)、特异性(specificity,Sp)和曲线下面积(area under the the curve,AUC)值作为指标评价分类性能,同时也绘制了分类模型的受试者工作特征曲线(receiver operating characteristic curve,ROC)。Acc 表示被正确分类的样本数占总样本数的比值。ROC 曲线按照真阳性率(true positive rate,TPR)为纵轴,假阳性率(false positive rate,FPR)为横轴进行绘制。其中,真阳性(true positive,TP)表示被正确分类为正类的个数;假阳性(false positive,FP)表示被错误分类为正类的个数;真阴性(true negative,TN)表示被正确分类为负类的个数;假阴性(false negative,FN)表示被错误分类为负类的个数。ROC 曲线结合了敏感性和特异性,敏感性也叫真正率、真阳性率,表示被正确分类为正样本的个数占总正样本个数的比值;特异性也叫真负率、真阴性率,表示被正确分类为负样本的个数占总的负样本个数的比值。AUC 值指 ROC 曲线下部面积,取值范围是 0~1,AUC 值越接近 1 则分类器的分类性能越好。Acc、Se、Sp 的计算公式分别如式(7)~(9)所示。
1.3.3 统计分析
使用统计分析软件 SPSS 24(IBM,美国)分析 ASD 儿童和 TD 儿童不同脑区的 EEG 信号非线性特征差异是否具有统计学意义。本研究中 ASD 儿童和 TD 儿童的特征数据服从正态分布且相互独立,即符合独立样本t检验的条件,因此使用 SPSS 24 软件中的独立样本t检验进行分析,当P < 0.05 时认为差异具有统计学意义。
2 结果与讨论
2.1 结果
如图 1 所示,采用序列长度为 5 000 的 EEG 信号绘制 RP,可以看出,相较于 TD 儿童对应的 RP,ASD 儿童对应的 RP 中递归点更多,且黑块和平行于对角线的黑色线段也更多。
进一步利用 RQA 方法量化 EEG 信号的特征,基于 RR、DET、LADL 特征值的箱型图如图 3 所示,横轴表示均匀分布在全脑区(包括:顶叶、额叶、枕叶、颞叶)的 8 个通道,纵轴表示对应通道的 EEG 信号特征值。从图 3 中可以看出 ASD 儿童的 RR、DET、LADL 特征值在各个通道总体要高于 TD 儿童,尤其在 C3、C4、F3、F4 通道上这种差异更加明显,即 ASD 儿童 EEG 信号特征值在顶额叶区(包括:顶叶、额叶)明显比 TD 儿童大,基于 RR、DET、LADL 特征值的柱状图如图 4 所示,柱状图从平均值的角度显示出这种差异。基于此,对特征值进行统计学分析。
ASD 儿童和 TD 儿童在四个脑区特征值差异的统计学分析结果如表 1 所示,在顶额叶区,除了额叶区 DET 特征差异无统计学意义外,其他五项特征差异均有统计学意义(P < 0.05);在颞叶和枕叶区,仅 RR 特征差异有统计学意义,其他两项特征的差异均无统计学意义(P > 0.05)。
本研究通过 SVM 留一交叉验证分类,第一个分类采用 ASD 儿童和 TD 儿童全脑区的 RR、DET、LADL 特征进行。如图 5 左图所示,比较了三个组合特征(RR + DET + LADL)、两个组合特征(RR + DET)以及单一特征(RR)的分类效果,ROC 曲线下面积随着组合特征数的增加而增加,当三个特征 RR、DET、LADL 组合在一起时,得到的最高分类准确率为 84%、对应的敏感性、特异性、AUC 值分别为 76%、92%、0.875。之前结果表明 ASD 儿童和 TD 儿童的 EEG 信号特征差异在顶额叶区具有统计学意义,基于此,第二个分类采用顶额叶区 RR、DET、LADL 特征进行。如图 5 右图所示,随着特征数的增加 ROC 曲线下面积也随之增加,当三个特征 RR、DET、LADL 组合在一起时,可得到最高分类准确率为 82%,敏感性、特异性、AUC 值分别为 72%、92%、0.781。详细的组合特征的分类结果如表 2 所示。本研究仅使用顶额叶区的 EEG 信号特征进行分类也能得到和全脑区相近的分类结果,进一步证实了 ASD 儿童和 TD 儿童 EEG 信号特征差异主要体现在顶额叶区。
2.2 讨论
本研究通过对比 ASD 儿童和 TD 儿童的 RP 显示出二者 EEG 信号的非线性特征存在差异,基于 RQA 方法分析发现 ASD 儿童 EEG 信号的 RR、DET、LADL 特征值高于 TD 儿童。通常认为,RR 反映 EEG 信号的复杂度,其值越低则 EEG 信号越复杂、新模式出现的概率也越高,本研究得出的 ASD 儿童 EEG 信号复杂度低于 TD 儿童这一结论与 ASD 儿童认知功能下降具有一致性,反映了 ASD 儿童参与和适应新认知任务的能力较弱[18-19]。DET 反应动态系统的可预测程度,其值越高则动态系统的可预测程度越高,研究结果发现 ASD 儿童 DET 值偏高可能由于 ASD 儿童临床表现包括单一刻板的思维模式和行为方式。LADL 也反映系统的可预测程度,其值越高则系统的可预测程度就越高,本研究显示 ASD 儿童的 LADL 值大于 TD 儿童,进一步证明了 ASD 儿童 EEG 信号可预测性更强。
研究同时发现 ASD 儿童和 TD 儿童 EEG 信号非线性特征差异在顶额叶区具有统计学意义。顶叶主要与人的逻辑思维能力和感觉响应能力有关;额叶是大脑中发育最高级的区域,额叶有使人的下意识活动服从意志的作用,并与人的情感、语言、运动及智力等方面也有紧密联系。顶额叶区 EEG 信号的非线性特征改变与 ASD 儿童在语言以及智力方面较 TD 儿童发育落后这一临床特征具有一致性[18]。Vogan 等[20]在一项认知任务研究中表明,ASD 儿童对完成认知任务的准确性显著低于 TD 儿童,TD 儿童随着任务难度增加顶额叶得到更多激活,ASD 儿童未表现出顶额叶的有效激活,他们无法有效整合复杂信息。闻芳等[21]利用多尺度熵算法研究了 ASD 儿童经过经颅直流电刺激干预前后各脑区 EEG 信号复杂度的变化,发现干预后 ASD 儿童顶额叶区 EEG 信号的熵值明显提高,即复杂度增加了,研究结果表明 ASD 儿童在顶额叶的 EEG 信号非线性特征存在异常,与本研究结果一致。本研究显示 RR、DET、LADL 特征能够成为区分 ASD 儿童和 TD 儿童的客观指标,通过这些特征进行 SVM 分类来识别 ASD 儿童和 TD 儿童具有可行性。
3 结论
本研究运用 RQA 方法提取分析 ASD 儿童和 TD 儿童 EEG 信号的 RR、DET、LADL 特征,结果发现,在全脑区,ASD 儿童 EEG 信号的 RR、DET、LADL 特征都要高于 TD 儿童,表明 ASD 儿童的 EEG 信号复杂度低于 TD 儿童且模式更单一可预测,这与 ASD 儿童认知功能下降和单一刻板思维方式的表现具有一致性,同时,这种特征差异在顶额叶区也具有统计学意义。基于提取的 RR、DET、LADL 特征利用机器学习对 ASD 儿童和 TD 儿童分类,在全脑区其最大分类准确率为 84%,在顶额叶区最大分类准确率为 82%,较传统特征分类准确率更高。
本研究首次结合 RQA 方法分析 ASD 儿童和 TD 儿童 EEG 信号,利用提取的 EEG 信号特征结合 SVM 分类器获得了较高的分类准确率,因此,基于 RQA 方法提取 EEG 信号非线性特征来分析和预测 ASD 儿童具有可行性。
利益冲突声明:本文全体作者均声明不存在利益冲突。
引言
孤独症谱系障碍(autism spectrum disorder,ASD)是一种由于神经系统失调导致的发育障碍疾病,其核心症状包括社会交往障碍、言语交流障碍、重复刻板行为等[1]。当前,全球范围内 ASD 的发病率显著升高,美国疾病控制与预防中心数据表明,美国所有出生于 2002 年的孩子 ASD 发病率约为 1/68[2]。迄今为止,ASD 发病确切原因还不清楚,可能与遗传、环境等因素相关[3]。目前医学上主要根据量表和行为观察进行 ASD 诊断[4],但其主观性较强,会产生一定的误诊率,因此,寻找客观指标对 ASD 患者进行准确评估至关重要。
脑电图(eletroencephalography,EEG)通过电极记录大脑细胞群自发性、节律性电活动,因其时间分辨率较高且包含大量生理和病理等信息,所以,监测 EEG 信号逐渐成为研究脑部疾病和神经认知疾病的有力手段。由于 EEG 信号所固有的非线性特性,因此应用非线性分析方法分析 EEG 信号更合适。近年来非线性分析方法如相关维数、李雅普诺夫(Lyapunov)指数、复杂度、样本熵等被广泛应用于 EEG 信号的研究[5]:Cukic 等[6]将样本熵方法应用于抑郁症患者 EEG 信号复杂度分析;李世丹[7]对比分析了线性分析方法和非线性分析方法提取酗酒者和正常人 EEG 信号特征的分类效果,结果表明基于非线性分析方法提取的 EEG 信号特征分类准确性更高。
递归图(recurrence plot,RP)由 Eckmann 等[8]于 1987 年提出,RP 可以对非线性时间序列信号的非线性特征和内在相似性特征进行定性分析,而递归定量分析(recurrence quantification analysis,RQA)方法用于对这些特征进行精确量化。近年来 RQA 方法已广泛应用于 EEG 信号研究,Pitsik 等[9]通过 RQA 方法计算 EEG 信号复杂度来监测人体运动开始时刻;Timothy 等[10]基于 RQA 方法对轻度认知障碍患者和正常人的静息态 EEG 信号进行分类,准确率达 72.2%。
ASD 属于神经发育障碍疾病,其疾病特征在 EEG 信号中有所体现,大量研究表明,根据 EEG 信号对 ASD 患者进行评估和诊断具有可行性[11-13]。RP 和 RQA 方法结合 EEG 信号已经成为分析癫痫、抑郁症等多种脑认知疾病的有力工具。目前本课题组尚未发现有研究将 RQA 方法结合 EEG 信号用以分析 ASD 的疾病特征。基于此,本研究在这一方面进行首次探索,用 RP 和 RQA 方法来提取 ASD 患者 EEG 信号特征,然后结合支持向量机(support vector machine,SVM)对特征进行分类。同时在组间水平上对比了 ASD 儿童和 TD 儿童不同脑区 EEG 信号特征的差异,并结合脑区功能来分析特征差异同 ASD 患者临床特征之间的联系,为今后 ASD 的诊断和治疗提供相应参考。
1 材料和方法
1.1 材料
1.1.1 受试者
本研究共招募 50 名儿童参与 EEG 信号采集,包括:① 在北京安定医院招募 ASD 儿童 25 名,其中男生 21 名,女生 4 名,符合 ASD 患者中男性患者人数是女性患者人数的 4~5 倍[14],年龄在 3~6 岁之间,平均年龄为(4.40 ± 0.95)岁。ASD 儿童评定方法为专业医师根据《精神病诊断与统计手册(第五版)》和《儿童孤独症评定量表》进行评定。② 招募北京当地幼儿园 25 名正常发育(typical development,TD)儿童,采集他们的 EEG 信号作为对照,其中男生 11 名,女生 14 名,年龄在 3~6 岁之间,平均年龄为(4.36 ± 0.64)岁。两组儿童年龄的差异无统计学意义(t = 0.17,P = 0.86)。本研究经过北京师范大学伦理委员会批准,并得到伦理审查通知书,在完整描述试验步骤之后,家长签署书面知情同意书,所有儿童均自愿参加本次试验。
1.1.2 EEG 信号采集
本研究用 8 通道 EEG 信号采集系统对 50 名儿童的静息态 EEG 信号进行采集,其中采样率为 1 000 Hz,Cz 电极为参考电极,采集过程中保持电极阻抗小于 50 kΩ。8 个电极记录了四个脑区的 EEG 信号:C3、C4 电极记录顶叶区的 EEG 信号;F3、F4 电极记录额叶区的 EEG 信号;O1、O2 电极记录枕叶区的 EEG 信号;T3、T4 电极记录颞叶区的 EEG 信号。
1.1.3 数据预处理
使用数据分析软件 Matlab 2018(MathWorks,美国)中的 EEGLAB 工具箱对采集的 EEG 信号进行预处理:首先将采集的 EEG 信号通过 0.5~40 Hz 的带通滤波器,然后用自适应伪迹检测算法去除工频、眼电、心电、肌电、呼吸等伪迹,去除超过阈值的序列,最后将每位儿童每个通道的 EEG 信号进行数据截选,截选长度为 5 s 的 EEG 信号进行分析。
1.2 EEG 信号特征提取
1.2.1 相空间重构
EEG 信号本质上是一维非线性时间序列信号,通过相空间重构可以将一维非线性时间序列信号映射到高维相空间中,而 RP 又可以将高维相空间信号进行可视化,所以相空间重构是研究非线性时间序列信号递归特性的基础。根据周佰成等[15]报道的 Takens 理论指出,嵌入定理可以为一维非线性时间序列信号重构一个与原动力系统在拓扑意义下一样的相空间,非线性时间序列信号的分析和预测都是在这个重构的相空间中进行的。
假设 x(n)是长度为 N 的非线性时间序列信号,n = 1,2,,N。相空间重构得到一组 m 维向量 X(n),如式(1)所示:
其中,m 是嵌入维度,τ 是延迟时间。m 和 τ 决定着相空间重构的质量,如果 τ 太小,则相空间中向量的两个坐标分量在数值上非常接近,从而无法提供两个独立的坐标分量,但 τ 太大又会出现两个坐标分量完全独立的情况,失去研究意义;同样地,如果 m 太小会出现高维状态下不相邻点在低维状态下相邻,即出现虚假近邻点,选较大 m 在理论上可行,但会增加计算量。选取 m 和 τ 的很重要,本研究分别采用虚假最临近法和互信息法确定 m 和 τ。
1.2.2 RP
RP 将高维相空间信号映射到二维空间以实现可视化,相空间重构后两时刻的向量 X(i)与 X(j)之间的距离为 Ri,j,则 RP 的矩阵形式如式(2)所示:
其中 ε 为距离阈值,||.||为欧式距离,θ[x]为海维赛德(Heaviside)函数,如式(3)所示:
对于任意两个向量 X(i)、X(j),如果它们之间的欧式距离小于距离阈值,则 Ri,j = 1,表示两个向量发生了递归,在 RP 中用黑点表示,否则 Ri,j = 0,表示两个向量没有发生递归,在 RP 中用白点表示。
如图 1 所示,绘制了 ASD 儿童和 TD 儿童 EEG 信号的 RP。由图可知,相比于 TD 儿童,ASD 儿童 RP 中的递归点要更多,且有较多的黑块,平行于对角线的黑色线段也更多。
1.2.3 RQA
RP 不能对 EEG 信号进行准确的定量分析,自从 Zbilut 等[16]提出 RQA 方法之后,涉及到的信号监测已从定性分析上升到了更加准确的定量分析,RQA 方法在分析心率信号、EEG 信号和肌电信号等人体生理信号中有广泛应用。本研究基于 RQA 方法提取了 ASD 儿童和 TD 儿童 EEG 信号的递归率(recurrence rate,RR)、确定性(determinism,DET)和平均对角线长度(length of average diagonal line,LADL)特征。
RR:指 RP 中递归点的个数占图中所有点个数的比值,其值随信号序列复杂度降低而升高,计算公式如式(4)所示:
其中,N为 RP 中横坐标或纵坐标的点数。
DET:指 RP 中平行于主对角线的线段所包含的递归点个数占总递归点个数的比值,其值随信号序列周期性增强(或者模式越单一)而升高,计算公式如式(5)所示:
上式中,l 表示线段长度,lmin 表示最小线段长度,本研究选定 lmin = 2,P(l)表示长度为 l 且平行于主对角线的线段数。
LADL:即平行于主对角线的线段所包含递归点个数的加权平均值(主对角线并不计算在内),其值随系统的确定程度增强而升高,计算公式如式(6)所示:
本研究使用以上三个特征作为 SVM 的输入数据进行分类。
1.3 SVM 分类
1.3.1 SVM
SVM 的分类原理是在特征空间中确定一个最优分类超平面,使得不同类别的样本到该超平面的距离最大,以保证较高的分类精度[17]。本研究使用 SVM 留一交叉验证法进行分类,即每次从样本集中抽取一个样本作为分类器测试集,剩余的样本作为分类器训练集,以此方式无交叉地进行总样本个数次训练和测试,然后对所有测试结果做平均,最终得到测试结果平均值。
RQA 方法提取 EEG 信号的 RR、DET、LADL 特征,将 ASD 儿童和 TD 儿童 EEG 信号的差异直观反映在这些特征值上,将这三个特征值归一化后组成特征向量输入 SVM 分类器进行留一交叉验证分类,具体流程如图 2 所示。
1.3.2 评价指标
本研究将 ASD 儿童作为正类,TD 儿童作为负类,用准确率(accuracy,Acc)、敏感性(sensitivity,Se)、特异性(specificity,Sp)和曲线下面积(area under the the curve,AUC)值作为指标评价分类性能,同时也绘制了分类模型的受试者工作特征曲线(receiver operating characteristic curve,ROC)。Acc 表示被正确分类的样本数占总样本数的比值。ROC 曲线按照真阳性率(true positive rate,TPR)为纵轴,假阳性率(false positive rate,FPR)为横轴进行绘制。其中,真阳性(true positive,TP)表示被正确分类为正类的个数;假阳性(false positive,FP)表示被错误分类为正类的个数;真阴性(true negative,TN)表示被正确分类为负类的个数;假阴性(false negative,FN)表示被错误分类为负类的个数。ROC 曲线结合了敏感性和特异性,敏感性也叫真正率、真阳性率,表示被正确分类为正样本的个数占总正样本个数的比值;特异性也叫真负率、真阴性率,表示被正确分类为负样本的个数占总的负样本个数的比值。AUC 值指 ROC 曲线下部面积,取值范围是 0~1,AUC 值越接近 1 则分类器的分类性能越好。Acc、Se、Sp 的计算公式分别如式(7)~(9)所示。
1.3.3 统计分析
使用统计分析软件 SPSS 24(IBM,美国)分析 ASD 儿童和 TD 儿童不同脑区的 EEG 信号非线性特征差异是否具有统计学意义。本研究中 ASD 儿童和 TD 儿童的特征数据服从正态分布且相互独立,即符合独立样本t检验的条件,因此使用 SPSS 24 软件中的独立样本t检验进行分析,当P < 0.05 时认为差异具有统计学意义。
2 结果与讨论
2.1 结果
如图 1 所示,采用序列长度为 5 000 的 EEG 信号绘制 RP,可以看出,相较于 TD 儿童对应的 RP,ASD 儿童对应的 RP 中递归点更多,且黑块和平行于对角线的黑色线段也更多。
进一步利用 RQA 方法量化 EEG 信号的特征,基于 RR、DET、LADL 特征值的箱型图如图 3 所示,横轴表示均匀分布在全脑区(包括:顶叶、额叶、枕叶、颞叶)的 8 个通道,纵轴表示对应通道的 EEG 信号特征值。从图 3 中可以看出 ASD 儿童的 RR、DET、LADL 特征值在各个通道总体要高于 TD 儿童,尤其在 C3、C4、F3、F4 通道上这种差异更加明显,即 ASD 儿童 EEG 信号特征值在顶额叶区(包括:顶叶、额叶)明显比 TD 儿童大,基于 RR、DET、LADL 特征值的柱状图如图 4 所示,柱状图从平均值的角度显示出这种差异。基于此,对特征值进行统计学分析。
ASD 儿童和 TD 儿童在四个脑区特征值差异的统计学分析结果如表 1 所示,在顶额叶区,除了额叶区 DET 特征差异无统计学意义外,其他五项特征差异均有统计学意义(P < 0.05);在颞叶和枕叶区,仅 RR 特征差异有统计学意义,其他两项特征的差异均无统计学意义(P > 0.05)。
本研究通过 SVM 留一交叉验证分类,第一个分类采用 ASD 儿童和 TD 儿童全脑区的 RR、DET、LADL 特征进行。如图 5 左图所示,比较了三个组合特征(RR + DET + LADL)、两个组合特征(RR + DET)以及单一特征(RR)的分类效果,ROC 曲线下面积随着组合特征数的增加而增加,当三个特征 RR、DET、LADL 组合在一起时,得到的最高分类准确率为 84%、对应的敏感性、特异性、AUC 值分别为 76%、92%、0.875。之前结果表明 ASD 儿童和 TD 儿童的 EEG 信号特征差异在顶额叶区具有统计学意义,基于此,第二个分类采用顶额叶区 RR、DET、LADL 特征进行。如图 5 右图所示,随着特征数的增加 ROC 曲线下面积也随之增加,当三个特征 RR、DET、LADL 组合在一起时,可得到最高分类准确率为 82%,敏感性、特异性、AUC 值分别为 72%、92%、0.781。详细的组合特征的分类结果如表 2 所示。本研究仅使用顶额叶区的 EEG 信号特征进行分类也能得到和全脑区相近的分类结果,进一步证实了 ASD 儿童和 TD 儿童 EEG 信号特征差异主要体现在顶额叶区。
2.2 讨论
本研究通过对比 ASD 儿童和 TD 儿童的 RP 显示出二者 EEG 信号的非线性特征存在差异,基于 RQA 方法分析发现 ASD 儿童 EEG 信号的 RR、DET、LADL 特征值高于 TD 儿童。通常认为,RR 反映 EEG 信号的复杂度,其值越低则 EEG 信号越复杂、新模式出现的概率也越高,本研究得出的 ASD 儿童 EEG 信号复杂度低于 TD 儿童这一结论与 ASD 儿童认知功能下降具有一致性,反映了 ASD 儿童参与和适应新认知任务的能力较弱[18-19]。DET 反应动态系统的可预测程度,其值越高则动态系统的可预测程度越高,研究结果发现 ASD 儿童 DET 值偏高可能由于 ASD 儿童临床表现包括单一刻板的思维模式和行为方式。LADL 也反映系统的可预测程度,其值越高则系统的可预测程度就越高,本研究显示 ASD 儿童的 LADL 值大于 TD 儿童,进一步证明了 ASD 儿童 EEG 信号可预测性更强。
研究同时发现 ASD 儿童和 TD 儿童 EEG 信号非线性特征差异在顶额叶区具有统计学意义。顶叶主要与人的逻辑思维能力和感觉响应能力有关;额叶是大脑中发育最高级的区域,额叶有使人的下意识活动服从意志的作用,并与人的情感、语言、运动及智力等方面也有紧密联系。顶额叶区 EEG 信号的非线性特征改变与 ASD 儿童在语言以及智力方面较 TD 儿童发育落后这一临床特征具有一致性[18]。Vogan 等[20]在一项认知任务研究中表明,ASD 儿童对完成认知任务的准确性显著低于 TD 儿童,TD 儿童随着任务难度增加顶额叶得到更多激活,ASD 儿童未表现出顶额叶的有效激活,他们无法有效整合复杂信息。闻芳等[21]利用多尺度熵算法研究了 ASD 儿童经过经颅直流电刺激干预前后各脑区 EEG 信号复杂度的变化,发现干预后 ASD 儿童顶额叶区 EEG 信号的熵值明显提高,即复杂度增加了,研究结果表明 ASD 儿童在顶额叶的 EEG 信号非线性特征存在异常,与本研究结果一致。本研究显示 RR、DET、LADL 特征能够成为区分 ASD 儿童和 TD 儿童的客观指标,通过这些特征进行 SVM 分类来识别 ASD 儿童和 TD 儿童具有可行性。
3 结论
本研究运用 RQA 方法提取分析 ASD 儿童和 TD 儿童 EEG 信号的 RR、DET、LADL 特征,结果发现,在全脑区,ASD 儿童 EEG 信号的 RR、DET、LADL 特征都要高于 TD 儿童,表明 ASD 儿童的 EEG 信号复杂度低于 TD 儿童且模式更单一可预测,这与 ASD 儿童认知功能下降和单一刻板思维方式的表现具有一致性,同时,这种特征差异在顶额叶区也具有统计学意义。基于提取的 RR、DET、LADL 特征利用机器学习对 ASD 儿童和 TD 儿童分类,在全脑区其最大分类准确率为 84%,在顶额叶区最大分类准确率为 82%,较传统特征分类准确率更高。
本研究首次结合 RQA 方法分析 ASD 儿童和 TD 儿童 EEG 信号,利用提取的 EEG 信号特征结合 SVM 分类器获得了较高的分类准确率,因此,基于 RQA 方法提取 EEG 信号非线性特征来分析和预测 ASD 儿童具有可行性。
利益冲突声明:本文全体作者均声明不存在利益冲突。