logo资料库

基于PCA和SVM的个性化睡眠分期研究 .pdf

第1页 / 共7页
第2页 / 共7页
第3页 / 共7页
第4页 / 共7页
第5页 / 共7页
第6页 / 共7页
第7页 / 共7页
资料共7页,全文预览结束
5 10 15 20 25 30 35 40 中国科技论文在线 基于 PCA 和 SVM 的个性化睡眠分期研究 http://www.paper.edu.cn 周鹏,李向新,张翼,薛然婷* (天津大学精密仪器与光电子工程学院,天津 300072) 摘要: 随着现代社会生活节奏的加快和工作压力增加,越来越多的人面临失眠的困扰,睡 眠问题逐渐成为人们关注的热点问题。本文研究了睡眠脑电的时域、频域,非线性等 10 种 特征在睡眠过程中的变化规律,并采用基于主成分分析(PCA)和支持向量机(SVM)联合使 用的自动睡眠分期方法,针对个体差异性为每例患者建立其专属的个性化分类器。通过对 MIT-BIH 数据库中的样本进行分析,平均正确率可达到 87.9%,优于许多同类研究。 关键词:睡眠分期;主成分分析;支持向量机;个体差异性;样本熵 中图分类号:R318 Analysis of sleep staging based on Individual difference with Principal Component Analysis and Support Vector Machine Zhou Peng, Li Xiangxin, Zhang Yi, Xue Ranting (School of Precision Instruments and Opto-Electronics,Tianjin University, TianJin 300072) Abstract: With the pace of life accelerated, more and more people face with insomnia. Sleep problem is the hot tissue recently and sleep staging is the premise and basic research of the study of sleep. This paper studies the change rules of ten kinds of characteristics in the time domain, frequency domain and nonlinear in sleep, presents a new method which combines with Principal Component Analysis and Support Vector Machine for automatic sleep staging and also puts forward for each patient to establish his own classifier. based on the theory of individual difference. Experiments conducted on the samples of MIT-BIH database. And the correct rate can reach 87.9% , which is better than many other similar studies. Keywords: Sleep staging; PCA; SVM; Individual difference; Sample entropy 0 引言 睡眠作为人类不可或缺的生理过程,具有极其重要的作用,通过睡眠人的精神和体力得 到恢复。然而,随着生活节奏的加快、工作压力的增大以及人口老龄化的到来,失眠症已经 成为“悄然发展的现代社会流行病”,严重影响了人们的身心健康,降低了人们的生活质量。 因此,睡眠问题已经成为社会研究的热点问题,睡眠分期研究作为睡眠研究的基础,是睡眠 质量评价和相关疾病诊断的重要依据。根据 2007 年美国睡眠医学学会(American Academy of Sleep Medicine, AASM)的最新修改,睡眠的整个过程可分为:清醒期(W)、浅睡期(Ⅰ 期、Ⅱ期、)深睡期(Ⅲ期)和快速眼动(REM)期[1]。 最可靠的睡眠分期方法是由经验丰富的医师对被测者整晚的睡眠脑电信号观测后进行 人工分期[2],但是该方法对专家的知识和经验水平提出了较高要求,并且费时费力,工作量 大。因此本文提出了基于 PCA 和 SVM 联合使用的自动睡眠分期方法。使用主成分分析 (Principal Component Analysis,PCA)对特征数据进行降维处理,确保在降低数据计算维 数的同时保存绝大部分有效信息,解决了模型参数的过度拟合问题,并选用支持向量机作为 模式分类方法,利用其在小样本、非线性、多维数数据中的处理优势,提高了分类的准确性 和可靠性。 基金项目:博士点基金(200800561089);国家自然基金(51007063) 作者简介:周鹏,(1978-),男,副教授,主要研究方向:磁刺激的生物学效应,生物医学信号检测,医 学仪器设计等. E-mail: zpzpa@vip.sina.com - 1 -
中国科技论文在线 1 基于 PCA 和 SVM 的睡眠脑电信号分期 1.1 数据的获取和预处信号 http://www.paper.edu.cn 45 50 文中所用的数据均来自 MIT-BIH 生理信息库中的多导睡眠数据库,数据库包括 16 位年 龄在 32~56 岁之间的男性受试者的睡眠脑电数据和相应的睡眠分期结论,该结论是由专家对 每 30s 长度的数据进行一次分期判断所得。实验选取了数据比较完整的 slp01、slp32、slp45、 slp60、slp66 共五例样本进行分析,并与专家的分期结果进行比对。 由于睡眠脑电的频率一般在 0.5-30Hz,试验设计截止频率为 30Hz 的巴特沃斯低通滤波 器对数据滤波。为了便于进一步的处理,滤波完成后需要依据专家的分期结果将数据(30s 为一段)分为 W 期数据集、一期数据集、二期数据集、三期数据集和 REM 期数据集,本 文图示特征均是对 Slp01 样本不同睡眠期所对应数据集中的数据段分别求取特征值并叠加 平均所得。 1.2 信号的特征提取 脑电信号本身具有信号弱、频率低、噪声大等特点,为了能够准确客观地反映信号本质, 55 本实验从时域、频域以及非线性三个方面共选取了 10 个特征。 时域特征:时域特征有信号幅值和平均功率,信号幅值指信号的最大值与最小值的差值。 为了减少误差,本实验中最大值和最小值分别为前十个最大值、最小值的均值。Slp01 样本 不同睡眠时期的平均幅值情况如图 1 所示。 信号 X(t)的平均功率为: 1 t ∫ T τ − t +∞ w ) −∞ = S dw ( ∫ (wS 是以弧度为单位的信号功率谱密度,对 Slp01 信号的平均功率分析结果如图 (1) 2 X t dt ( ) 60 m o = 其中, ) 2 所示。 65 70 图 1 slp01 样本睡眠各期幅值 图 2 slp01 样本各期平均功率 Fig.1 The amplifies of sample slp01’s different Fig.2 The average powers of sample slp01’s stages stages 从图 1 和图 2 中可看出,深睡期脑电信号的平均幅值最大,平均功率也表现出相同的规 律,从一期到三期逐渐增加,在睡眠三期达到最大值,进入快速眼动期后幅值和平均功率均 出现显著下降,介于一期和二期之间。 频域特征:将滤波后的信号从 0.5—30Hz 划分为七个频率段,依次为:δ1:0.5-2.5(Hz)、 δ2:2.5-4(Hz)、θ1:4-6(Hz)、θ2:6-8(Hz)、α:8-12(Hz)、β1:12-20(Hz)、β2: 20-30(Hz)[3],求得各频段能量占总频段能量的百分比,如图 3 所示。 - 2 -
中国科技论文在线 http://www.paper.edu.cn Fig.3 sample slp01’s energy ratio of different frequency bands in different sleep stages 图 3 slp01 样本睡眠各期频带能量比 由表 1 可得,δ1 频段的脑电信号在各睡眠阶段中占主要部分,而且随着睡眠程度的加 深,脑电信号的低频部分比重在增加,高频部分逐渐减少,该规律在 δ1、α、β1 频段尤为明 显。   非线性特征:本文选用样本熵作为睡眠分期的非线性参数。样本熵用来表征信号复杂度 的大小,熵值越大说明非线性动力学系统产生新信息的速率越快,信号也就越复杂。与近似 熵相比,样本熵的计算速度更快,几乎缩短一倍,而且不需要进行自身的模板匹配,也使结 果更加准确[4]。Slp01 样本不同睡眠阶段的样本熵情况如图 4 所示: 图 4 slp01 样本不同睡眠期样本熵 Fig.4 The Sample entropy of sample slp01’s different stages 从图中可知,清醒期的样本熵值最大,随着睡眠程度的加深,熵值越来越小。这与睡眠 的生理过程相符:在清醒期思维活动导致脑电信号比较复杂;进入到深睡期后,人体对外界 刺激的反应能力减弱,思维活动减少,脑电信号的复杂性明显降低。 1.3 主成分分析原理及应用 从以上分析可以看出,文中所选的十个参数都能够较好地反映出睡眠不同时期的特征, 但是由于各个参数所含的信息之间具有一定的重叠性和相关性,如果直接将它们用于模式分 类,不仅会造成模型参数的过度拟合而降低分类的准确性和可靠性,而且还会因为数据量过 大而降低分类的速度。因此,文中选用主成分分析对数据进行降维处理。 主成分分析是根据方差最大化原理,用一组线性无关且相互正交的新向量表征原来的数 据矩阵的行(或列),达到压缩变量个数,剔除冗余信息,最大化保存有效信息的目的。最 - 3 - 75 80 85 90 95
中国科技论文在线 http://www.paper.edu.cn 终得到的新向量组是原始向量组的线性组合,称为主成分。记原始变量为(X1,X2,…,Xp), 主成分记为(F1,F2,…,Fm),通常 m 远小于 p。则主成分与原始向量组的关系为: 100 + + a X 12 a X 22 2 2 1 1 + + ... ... + + p a X 1 a X 2 p p p F 1 F 2 F m ⎧ ⎪ ⎪ ⎨ ⎪ ⎪ ⎩ a X = 11 a X = 21 ...... = a X m 1 + a X m 2 2 1 + ... + a X m p p (2) 其中 F1 蕴含信息量最多,具有最大方差,F2,…,Fm 依次递减。因此,主成分分析的 过程可以看作是确定权重系数的过程。 105 主成分求解的一般方法是对原始变量矩阵 X 的协方差矩阵进行特征根分解,得到的特 征向量作为主成分的坐标轴,构成新的矢量空间,特征根的大小表示相应的主成分所含信息 量的多少。主成分的个数可用特征根的累积贡献率来确定: λ i m ∑ i 1 = p , 其中, iλ是求出的第 i 个特征根[5]。 i 1 = λ i ∑ 对上文提取的十个特征进行主成分分析,得到各成分所对应的累计贡献率如表 1 所示, Tab.1 The cumulative contribution rate of characteristic roots processed by PCA 表 1 PCA 处理后特征根累积贡献率 第一 主成 分 第二主 成分 第三主 成分 第四主 成分 第五主 成分 第六主 成分 第七主 成分 第八主 成分 第九主 成分 第十主 成分 81.3% 99.8% 100% 100% 100% 100% 100% 100% 100% 100% 主成分 累积贡献 率 可以看出前二个主成分包含了上述十个特征 99.8%的信息,说明实验中所用的十个信号 虽然取自时域、频域和非线性三个方面,但相互之间仍然有很大的冗余性,因此本文选择前 二个主成分作为样本的最终特征。 1.4 基于个体差异性的支持向量机(support vector machine,SVM)及其分类 结果 1.4.1 支持向量机原理及算法 线性可分问题是指对于样本: =∈Y 支持向量机是建立在统计学的 VC 维理论和风险结构最小化理论基础上的一种机器学 习方法,它由线性可分情况下的最优分类面发展而来,解决了样本有限性、非线性、高维数、 过学习、局部极小值等问题,正逐渐成为模式分类的首选方法[5 ~6]。 (X 0 yi 满足 w x b ⋅ + ≥ ⎧ i ⎨ ⋅ + < w x b ⎩ i 所以最优分离超平面的求解可以看做二次规划问题,找到权值 w 和偏移量 b 的最优解, = (3) 1, , ,ω RX ,n ∈∈ RbR m ∈ x i ∈ (x, i iw x )}y, Y) ×∈ b ⋅ + = ,( (L 为样本数),有超平面 1 = 1 = − { },1,1 − ,1 = ),y, y i y i {(x n , ) i ( 0 0 M = , L 1 1 ) i i 使 - 4 - 110 115 120 125
中国科技论文在线 http://www.paper.edu.cn 2 ) ( w w / 2 ψ = 最小,此时分类间隔为 2/||W||。 (4) 130 对于线性不可分问题,需要增加一个松弛变量 0≥iξ ,于是约束条件(3)将改写为 w x b 1 = ⋅ + + ⎧ i ⎨ ⋅ + + w x b 1 = − ⎩ i 使得目标函数(6)取得最小值 ξ i ξ i y i y i ≥ < 0 0 (5) ) ψ ξ w , ( = 2 w / 2 + ∑ (6) c ξ i n i 1 = 在实际的使用中,由 Cover 定理表明,通过选择适当的核函数将样本映射到高维特征空 135 间,则非线性可分样本将极可能转化为线性可分,就可以使用线性分类器处理。 140 145 支持向量机主要用于二分类问题,对于实际中遇到的多分类问题,通常的解决方案是用 多个两类支持向量机分类器组成一个多类分类器,主要模型有三种:1-a-r(One-against-rest classifiers)分类器、1-a-1(One-against-one classifiers)、多级 BSVM 分类器[5 ~9]。一对一(1-a-r) 是指在每两类之间都训练一个分类器,那么一个 k 类问题就有 k(K-1)/2 个分类函数。对每个 样本判别时所有的分类器都要做出判断,即进行投票,最终的结果为得到票数最多的类别。 该方法的判别准确率最高,但是随着类别数的增加,所需分类器个数将成平方级数增长[5 ~9], 但是考虑到睡眠过程最多只有五个阶段,所以本文使用 1-a-r 判别方法。 1.4.2 基于个体差异性的支持向量机分类结果 由于生物体之间具有显著的个体差异性,受生活习惯、遗传因素、生活环境、健康程度 等因素影响,每个人的睡眠结构和睡眠各时期的特征也都不尽相同(比如老年人、高压人群 等深睡期就较短甚至没有深睡期,而儿童的深睡期就相对较长,呼吸暂停病人的信号特征不 明显等[10])。为了验证不同的受试者在睡眠各期的参数特征具有差异性,本实验对样本 slp01 和 slp45 在睡眠二期和三期的十个特征(W 期、一期、R 期的数据量太少)进行了两独立样 本的 Kolmogorov-Smirnov(K-S)检验,设定显著性差异水平 α=0.05。统计结果如表 2 所示。 表 2 不同睡眠阶段 slp01 和 slp45 样本特征的 K-S 统计 Tab.2 The K-S statistics of ten characteristics between sample slp01 and sample slp45 in different stages 2βP 1βP 2θP 2δP 1θP δ1P αP 1.50e-6 0.1032 7.14e-4 2.77e-16 1.0e-12 1.80e-4 3.50e-8 150 幅值P 0.0318 平均功率 P 1.67e-75 二 期 三 期 样本熵P 0.0056 3.9e-8 2.83e-51 6.50e-13 2.22e-10 3.90e-8 4.88e-12 5.21e-4 0.0102 1.20e-21 5.49e-10 从上表中可以看出,在睡眠二期和三期两样本的十个特征之间具有很强的差异性(除 155 160 外,P<0.05),结果具有统计学意义。因此,可以得出结论,由于个体差异性,即使是同一 特征参数,由不同的样本得到的特征值也有很大的差别,而训练样本的差异性又限制了分类 器的适用范围。近年来国内外学者都试图从算法上进行改进来寻找具有普遍适用性的分类器 [11~15],而训练一个具有普遍适用性的分类器必将是以牺牲分类的准确性为代价,普适性越 好则准确率越低。因此,真正意义上的具有普遍适用性的分类器是不存在的。针对这种情况, 本文为每个样本都设计专用的分类器,用以避免个体差异性对判别结果的影响。 以 Slp01 样本为例,该样本记录了受试者从 23:00~1:00 以及 2:00~5:00 的睡眠脑电,专 - 5 -
中国科技论文在线 http://www.paper.edu.cn 家的分期结果显示其中一期和 REM 期所占比重只有 10%,因此文中只对 W 期、二期和三 期进行判别。将数据以 30s 一段分为训练样本和测试样本两部分,其中训练样本数为 228, 测试样本数为 227。将 PCA 处理后的主成分作为判别特征,选用径向基函数为核函数,考 虑到睡眠过程最多只有五个阶段,所以本文使用 1-VS-1 判别方法。将 SVM 判别后的结果 与专家人工分期结果进行对比,如表 3 所示: 表 3 slp01 样本分期准确率 Tab.3 accuracy rate of staging in sample slp01 样本数 判为 W 期样本数 判为二期样本数 判为三期样本数 判别率 W 期 二期 三期 87 84 56 75 5 1 9 77 7 3 2 48 86.2% 91.7% 85.7% 由表 3 可知:PCA 和 SVM 相结合的睡眠脑电分期结果较为理想,其中睡眠二期的识别 率最高,可达到 91.7%,清醒期和三期的识别率较低,但是也到达了 86.2%和 85.7%,平均 正确率为 87.9%。使用相同的方法对 slp32、slp45、slp60、slp66 等四例样本进行分析得到的 平均准确率分别为:86.4%、88.3%、88.6%、85.7%,优于许多同类研究[12~13]。 2 结论 本文从睡眠脑电的时域、频域、非线性等角度出发,共研究了 10 种特征在睡眠不同阶 段的变化规律, 并使用 PCA 对所提取的特征进行降维处理,将最初的十个特征减少为二个, 解决了模型参数过度拟合的问题,明显减小了数据量,提高了运算速度,证明了 PCA 是进 行脑电信号处理的有利工具。 通过对样本使用支持向量机进行模式分类的结果可以看出,支持向量机能够很好地识别 出不同的睡眠阶段,尤其是一对一的多类判别规则,在类别总数较少的样本使用中具有明显 优势。 本实验通过对样本 slp01 和 slp45 睡眠二期和三期的十个特征进行基于两独立样本的 Kolmogorov-Smirnov(K-S)检验,证实了睡眠过程中脑电信号特征存在个体差异性,其结 果具有统计学意义。同时针对个体差异性,提出对每位就医的失眠患者训练其专用的分类器, 作为长期治疗过程中评价该患者睡眠情况的个性化诊断工具。从实验的处理结果来看,得到 的分类准确性较为理想,说明该方法具有可性。 [参考文献] (References) [1] 王菡侨. 有关美国睡眠医学学会睡眠分期的最新判读标准指南解析[J].诊断学理论与实践,2009,8(6): 575-578. [2] ]Caffarel J, Gibson GJ, Harrison JP, et al. Comparison of manual sleep staging with automated neural network-based analysis in clinical practice[J]. Medical and Biological Engineering and Computing,2006, 44(1-2): 105-110. [3] 葛家怡. 睡眠分期及低频磁场睡眠诱导的研究[D].天津:天津大学,2008 [4] 和卫星,陈晓平,邵珺婷. 基于样本熵的睡眠脑电分期[J]. 江苏大学报. 2009,30(5): 501-504 [5] 赵广社,张希仁. 基于主成分分析的支持向量机分类方法研究[J]. 计算机工程与应用,2004,3:37-38 [6] 祁享年。 支持向量机及其应用研究综述[J]. 计算机工程, 2004,30(10):6-9. [7] Bsoul M, Minn H, Nourani M, et al. Real-time sleep quality assessment using single-lead ECG and multi-stage SVM classifier[A].In: 32nd Annual [C]. Buenos Aires,2010:1178-1181. [8] Ubeyli ED, Cvetkovic D, Holland G, et al. Analysis of sleep EEG activity during hypopnoea episodes by least squares support vector machine AR coefficients[J]. Expert System with Application,2010,37(6):4463-4467. [9] Guerrero-Mosquera C,Vereysen M,Navia Vazquez A. Dimensionality reduction for EEG classification using International Conference of the IEEE EMBS 165 170 175 180 185 190 195 200 - 6 -
中国科技论文在线 http://www.paper.edu.cn 205 210 215 220 Mutual Information and SVM[A]. Machine Learning for Signal Processing,2011 IEEE International Workshop on[C]. Santander ,2011:1-6. [10] 王海涛,郑慧君,曹征涛,等. 考虑个体特征的非脑电睡眠分期[J]. 中国生物医学工程学报,2010,29(2): 161-165. [11] Berthomier C, Drouot X, Herman-Stoica M, et al. Automatic Analysis of Single-Channel Sleep EEG:Validation in Healthy Individuals[J]. Sleep,2007,30(11):1587-1595. [12] 刘慧,谢洪波,和卫星,等. 基于模糊熵的脑电睡眠分期特征提取与分类[J]. 数据采集与处理,2010,25(4): 484-489. [13] 李谷,范影乐,庞全. 基于排列组合熵的脑电信号睡眠分期研究[J]. 生物医学工程学杂志,2009,26(4): 869-872. [14] Anderer P, Gruber G, Parapatics S, et al. An E-health solution for automatic sleep classification according to Rechtschaffen and Kales: validation study of the Somnolyzer 24 x 7 utilizing the Siesta database[J]. Neuropsychobiology, 2005, 51(3):115-133. [15] Pittman SD, MacDonald MM, Fogel RB, et al. Assessment of automated scoring of polysomnographic recordings in a population with suspected sleep-disordered breathing[J]. Sleep, 2004,27(7):1394-1403. - 7 -
分享到:
收藏