logo资料库

一种面向不平衡数据的半监督特征选择算法.pdf

第1页 / 共6页
第2页 / 共6页
第3页 / 共6页
第4页 / 共6页
第5页 / 共6页
第6页 / 共6页
资料共6页,全文预览结束
杜利敏,徐扬.一种面向不平衡数据的半监督特征选择算法[J].河南理工大学学报(自然科学版),2017,36(5):095-099.doi:10.16186/j.cnki.1673-9787.2017.05.016DULM,XUY.Asemi-supervisedfeatureselectionalgorithmforimbalanceddata[J].JournalofHenanPolytechnicUniversity(NaturalScience),2017,36(5):095-099.doi:10.16186/j.cnki.1673-9787.2017.05.016一种面向不平衡数据的半监督特征选择算法杜利敏1,2,徐扬1(1.西南交通大学智能控制开发中心,四川成都610031;2.河南大学药学院,河南开封475004)*摘要:针对不平衡数据中特征维数高、标记样本缺乏问题,提出一种基于遗传算法和Biased-SVM的不平衡数据半监督特征选择算法。该方法首先利用初始的标记样本集训练处理不平衡数据的Biased-SVM模型,然后用训练好的Biased-SVM模型为未标记样本加上标签,再把新标记样本加入到初始标记样本集中,得到新标记样本集,最后采用基于遗传算法的不平衡数据特征选择方法选出最优的特征子集。实验结果表明,所提方法在不同的标记样本率下均具有较高的平均特征子集缩减率和平均小类识别率。关键词:遗传算法;Biased-SVM;不平衡数据;半监督学习;特征选择中图分类号:TP391文献标志码:A文章编号:1673-9787(2017)05-095-06Asemi-supervisedfeatureselectionalgorithmforimbalanceddataDULimin1,2,XUYang1(1.IntelligentControlDevelopmentCenter,SouthwestJiaotongUniversity,Chengdu610031,Sichuan,China;2.PharmacyCollegeofHenanUniversi-ty,Kaifeng475004,Henan,China)Abstract:Consideringthescarcityoflabeledsamplesandthehighfeaturedimensionforimbalanceddata,anewsemi-supervisedfeatureselectionalgorithmbasedonGAandBiased-SVMisproposed.Thebiased-SVMmodelwhichcandisposetheunbalancedsamplesdataistrainedbytheinitiallabeledsamplesetandthenthetrainedBiased-SVMmodelisusedtoaddlabelstotheunlabeledsamples,andaddthenewlabeledsamplestotheinitiallabeledsampleset.Finally,theoptimalfeaturesubsetisselectedbytheGA-basedfeatureselectionmethodforimbalanceddata.Experimentalresultsshowthattheproposedmethodnotonlyreducesthefeaturedimension,butalsoimprovestheprecisionoftheminorclassunderthedifferentlabeledsampleratesgeneral-ly.Keywords:geneticalgorithm;Biased-SVM;imbalanceddata;semi-supervisedlearn;featureselection0引言在实际问题中,获取标记样本往往不太容易,而未标记样本通常是大量且廉价的。因此,如何有效利用这些大量的未标记样本和少量的标记样本,即半监督学习是很有意义的。特征选择通过第36卷第5期2017年10月河南理工大学学报(自然科学版)JOURNALOFHENANPOLYTECHNICUNIVERSITY(NATURALSCIENCE)Vol.36No.5Oct.2017*收稿日期:2017-04-09;修回日期:2017-06-18基金项目:国家自然科学基金青年科学基金资助项目(61305074)作者简介:杜利敏(1979—),女,河南开封人,博士研究生,讲师,主要从事智能信息处理方面的教学和研究工作。E-mail:dulimin@henu.edu.cn中国煤炭期刊网 www.chinacaj.net
删除一些与目标无关或冗余的特征可以达到有效降维的目的。目前已有大量的半监督特征选择方法。文献[1]提出一种基于光谱分析的半监督特征选择算法;REN等[2]介绍一种封装型半监督特征选择方法;王博等[3]提出一种基于类标记扩展的半监督特征选择算法;李平红等[4]在文献[3]的基础上提出一种改进半监督特征选择算法;BELLAL等[5]提出一种新的具有集成学习指导的半监督特征排序方法;DAI等[6]提出一种基于支持向量机的半监督特征选择算法;文献[7]针对高光谱数据提出一种基于流行的半监督特征选择算法;林荣强等[8]针对网络流量特征提出一种基于类标记扩展的半监督特征选择算法。但上述算法并没有考虑数据的不平衡性。Maldonado等[9]针对高维不平衡数据提出一种逆向消除特征选择方法;文献[10]通过改进遗传算法中的适用度函数提出一种不平衡数据特征选择算法;Wasikowski等[11]提出一种通过滑动阈值进行特征评估的特征选择准则;Wang等[12]提出了一种基于MAUC分解的多类不平衡数据特征选择方法。上述方法处理不平衡数据是有效的,但这些方法需要充分的标记样本。因此,有必要针对不平衡数据,提出有效的半监督特征选择方法。本文针对只有少量标记样本和大量未标记样本的不平衡数据,在基于遗传算法的不平衡数据特征选择方法[10]基础上,在半监督学习模式下,提出一种新的不平衡数据半监督特征选择方法。该方法首先采用有偏支持向量机(biasedsupportvectormachine,Biased-SVM)为未标记样本加标签,然后用处理不平衡数据的基于遗传算法的特征选择方法进行特征选择。实验结果证明,该方法能同时有效利用少量标记样本和大量未标记样本,选出更有利于识别小类的特征,提高小类识别率。1基于遗传算法和Biased-SVM的不平衡数据半监督特征选择1.1Biased-SVMBiased-SVM[13]是通过对正负类样本采用不同的惩罚因子来处理数据不平衡性的分类模型。给定正类的惩罚因子为C+,负类的惩罚因子为C-,则SVM的目标函数变为min12W2+C+li|yi=+1ξi+C-li|yi=-1ξ()i,s.t.yi(W·φ(xi)+b)≥1-ξi,ξi≥0,i=1,2,…,l。(1)文献[14]提出了正类与负类惩罚因子的比例等于负类与正类样本比例的方法设定参数C+和C-。本文将采用文献[14]中的思想来设置惩罚因子。1.2基于遗传算法的不平衡数据特征选择下面从编码方案和初始化种群、适应度函数的设计、算法步骤等3个方面对该算法进行描述。1.2.1编码方案和初始化种群这里采用经典的二进制编码方法。对于任意数据集使用此方法编码时,个体的长度等于候选特征的个数,例如,设一个具有m个特征的数据集S,用m位0或1构成的字符串表示一种特征组合,其中,0表示对应特征未被选中,1表示对应的特征被选中。初始种群一般是随机产生的,根据训练样本的规模,种群规模选40~200个为宜。1.2.2适应度函数的设计一般的评价指标是分类准确率或错误率。假定大类和小类分别记为负类和正类,则对于2类不平衡数据,分类性能可以由下面的混淆矩阵来表示,如表1所示。其中,TP,TN分别表示分类正确的正类样本数、负类样本数,FN,FP分别表示被错分的正类样本数、负类样本数。表12类问题的混淆矩阵Tab.1Confusionmatrixoftwokindsofproblems被分为正类被分为负类正类Truepositives(TP)Falsenegatives(FN)负类Falsepositives(FP)Truenegatives(TN)则几何平均准则(G-mean)[15]可定义为G-mean=TPTP+FN×TN槡TN+FP。(2)G-mean是不平衡数据分类问题常用的评价准则,它是小类准确率TP/(TP+FN)和大类准确率TN/(TN+TP)乘积的算术平方根,G-mean衡量的是数据集整体的分类性能。遗传算法的适应度函数可定义为f(x)=α·G-mean+β·-()Xn,(3)式中:X为选出的特征子集X中的特征数;n为特征总数;α,β为控制参数,用于调整G-mean的值和特征数的重要程度,并且α+β=1。式(3)右边第1部分表示选出的特征子集对应的G-mean值越大,适应度函数值越大,第2部69河南理工大学学报(自然科学版)2017年第36卷中国煤炭期刊网 www.chinacaj.net
分表示选出的特征数越少,适应度函数值越大。使用者可以根据不同问题的需要自主调整α,β的值,这种所谓的赫维奇方法通过调整参数α,β试图平衡分类准确性或特征降维。一般情况下,第1部分比第2部分重要,因此,α>β。1.2.3算法步骤基于遗传算法的不平衡数据特征选择算法步骤如下。第1步确定编码方案并进行编码操作。第2步随机产生初始种群。第3步根据式(3)确定适用度函数。第4步根据适应度函数计算种群中每个个体的适应度值。第5步如果没有满足终止条件,执行遗传操作,包括选择、交叉、变异。第6步重复进行第4步、第5步直到满足终止条件为止。1.3基于遗传算法和Biased-SVM的不平衡数据半监督特征选择1.3.1基于Biased-SVM的类标记扩展Biased-SVM是给大类和小类设置不同的惩罚因子,小类设置较大的惩罚因子,大类设置较小的惩罚因子,以适应数据的不平衡性。采用Bi-ased-SVM为不平衡数据中的未标记样本加上标签,以解决半监督学习中数据的不平衡性,具体算法步骤如下。第1步用初始标记样本集训练Biased-SVM模型。第2步用训练好的Biased-SVM模型为未标记样本加标签。1.3.2基于遗传算法和Biased-SVM的不平衡数据半监督特征选择1.3.1是对所有未标记样本进行类标记扩展,使数据集有充分的标记样本,然后再利用1.2节中的基于遗传算法的不平衡数据特征选择方法在有类标记的训练样本集上进行特征选择。具体算法步骤描述如下。第1步从初始标记样本集SL出发,利用Biased-SVM对未标记样本集SU进行类标记扩展,使得所有样本都有对应的类标记。第2步在第一步的基础上得到训练样本集S,采用基于遗传算法的不平衡数据特征选择方法进行特征选择得到最优的特征子集。该算法流程如图1所示,其中,GA代表的是基于遗传算法的不平衡数据特征选择方法。2实验2.1不平衡数据特征选择的评估指标本文采用选出的特征子集大小和小类识别率(minorityaccuracy)来衡量本文算法的性能。(1)特征子集大小。特征子集大小是指特征选择方法选出的特征个数。(2)小类识别率(minorityaccuracy,MA)。小类i的识别率MAi定义为MAi=Ci/Ti,(4)式中:Ci为小类i分类正确的样本数目;Ti为小类i的样本总数。2.2实验数据为了验证本文算法的有效性,选取UCI数据集[16]中的4个数据集进行实验。具体参数如表2所示,其中,对于数据集Glass选取类别7作为小类,剩余样本共同组成大类,其他数据集本身就是两分类不平衡数据集。表2实验数据集信息汇总Tab.2InformationSummaryofdatasets数据集维数样本数小类样本数/大类样本数小类的类别标号大类与小类的比值Sonar6020897/111R1.14Breast30569212/357malignant1.68Ionosphere34351126/225Bad1.79Glass1021429/18576.382.3实验结果与分析实验中根据需要对数据进行了归一化处理并删除含有丢失数据的样本。同样选取每一个数据79第5期杜利敏,等:一种面向不平衡数据的半监督特征选择算法中国煤炭期刊网 www.chinacaj.net
集中20%为测试集,剩余的80%作为训练集,再在训练集中分别选取20%,40%,60%,80%作为标记样本。值得说明的是,在选取训练集、测试集及标记样本的过程中,采用分层抽样法以保持原有数据的不平衡性。本文中希望得到较高的分类准确率,因此,设定式(3)中的参数α=0.9,β=0.1。采用Mat-lab2012编制遗传算法程序。遗传算法参数设定:种群大小80,交叉概率0.7,变异概率0.02。终止条件为在最近10次迭代中,适应度函数变化不大。实验中采用林智仁libsvm工具箱,采用C-SVC模型,根据不同数据集设置不同的惩罚因子,惩罚因子设置原则为大类的惩罚因子设为1,小类的设为大类与小类的样本比值。由于实验中存在一定的随机性,因此,为了充分验证所提的不平衡数据半监督特征选择算法的效果,每个数据集训练10次,实验结果取均值。为了评估本文算法的性能,将以下2种方法进行比较分析。算法1直接采用SVM为未标记样本加标签,然后再采用基于遗传算法的不平衡数据特征选择算法进行特征选择,称之为基于遗传算法和SVM的不平衡数据半监督特征选择方法,简记为SGA。算法2本文算法,简记为BSGA。表3~6分别给出了2种方法在4个数据集上不同标记率下的特征子集大小。由表3~6可以看出,对于这几个不平衡数据集,本文方法在不同标记样本率下平均缩减率均有所提高。表32种特征选择算法的特征子集大小(N=20%)Tab.3Numberoffeaturesselectedbytwoalgorithmsondatasets(N=20%)数据库FullSGABSGASonar6021.6020.80Breast308.209.00Ionosphere3411.0010.70Glass102.002.00平均33.5010.7010.63平均维数减少68.06%68.27%表7~10分别给出了2种方法在4个数据集上不同标记率下的小类识别率。由表7~10可以看出,对于这几个不平衡数据集,本文方法在不同标记样本率下均取得较高的小类识别率。表42种特征选择算法的特征子集大小(N=40%)Tab.4Numberoffeaturesselectedbytwoalgorithmsondatasets(N=40%)数据库FullSGABSGASonar60.0024.8023.70Breast30.008.608.60Ionosphere34.0010.9011.00Glass10.002.001.90平均33.5011.5811.30平均维数减少65.43%66.27%表52种特征选择算法的特征子集大小(N=60%)Tab.5Numberoffeaturesselectedbytwoalgorithmsondatasets(N=60%)数据库FullSGABSGASonar60.0022.8025.40Breast30.009.007.70Ionosphere34.0011.4011.10Glass10.001.801.90平均33.5011.2511.53平均维数减少66.42%65.58%表62种特征选择算法的特征子集大小(N=80%)Tab.6Numberoffeaturesselectedbytwoalgorithmsondatasets(N=80%)数据库FullSGABSGASonar60.0025.1023.50Breast30.008.308.80Ionosphere34.0011.3010.60Glass10.002.202.20平均33.5011.7311.28平均维数减少64.99%66.33%表72种特征选择算法的小类识别率(N=20%)Tab.7Minorityaccuracybytwoalgorithmsondatasets(N=20%)数据库SGABSIGASonar0.7684±0.16050.7789±0.0865Breast0.9048±0.03370.9381±0.0433Ionosphere0.6920±0.07790.7640±0.0810Glass0.6800±0.17890.7200±0.1095平均0.7613±0.11280.8003±0.0801综上所述,本文提出的基于遗传算法和Bi-ased-SVM的不平衡数据半监督特征选择方法在89河南理工大学学报(自然科学版)2017年第36卷中国煤炭期刊网 www.chinacaj.net
表82种特征选择算法的小类识别率(N=40%)Tab.8Minorityaccuracybytwoalgorithmsondatasets(N=40%)数据库SGABSIGASonar0.7684±0.14720.6789±0.2068Breast0.9190±0.08350.9286±0.0734Ionosphere0.7520±0.10120.8240±0.0908Glass0.7800±0.33270.8200±0.2201平均0.8049±0.16620.8129±0.1478表92种特征选择算法的小类识别率(N=60%)Tab.9Minorityaccuracybytwoalgorithmsondatasets(N=60%)数据库SGABSIGASonar0.5526±0.18770.5474±0.1430Breast0.9714±0.05120.9810±0.0369Ionosphere0.7320±0.12510.8240±0.0735Glass0.8400±0.24590.7800±0.1751平均0.7740±0.15250.7831±0.1071表102种特征选择算法的小类识别率(N=80%)Tab.10Minorityaccuracybytwoalgorithmsondatasets(N=80%)数据库SGABSIGASonar0.5789±0.17370.6053±0.1723Breast0.9429±0.07200.9548±0.0495Ionosphere0.8160±0.09470.8680±0.0755Glass0.8200±0.19890.7600±0.2459平均0.7895±0.13480.7970±0.1358标记样本所占比例为20%~80%时,均取得较高的平均特征子集缩减率和平均小类识别率。即对于不平衡数据,在不同标记样本率下,所提方法更有助于选出识别小类的特征。3结语在实际应用当中,存在着大量含有少量标记样本和大量未标记样本的高维不平衡数据集,本文针对该问题提出一种新的基于遗传算法和Bi-ased-SVM的不平衡数据半监督特征选择算法。实验结果表明,本文方法在标记样本所占比例为20%~80%时具有较高的平均特征子集缩减率和平均小类识别率。参考文献:[1]ZHAOZ,LIUH.Semi-supervisedFeatureSelectionviaSpectralAnalysis[C]//SiamInternationalConferenceonDataMining,Minneapolis,Minnesota,USA.2007:641-646.[2]RENJ,QIUZ,FANW,etal.Forwardsemi-supervisedfeatureselection[C]//Pacific-Asiaconferenceonknowledgediscoveryanddatamining.Berlin:SpringerBerlinHeidelberg,2008:970-976.[3]王博,贾焰,田李.基于类标号扩展的半监督特征选择算法[J].计算机科学,2009,36(10):189-191.WANGB,JIAY,TIANL.Semi-supervisedFeatureSe-lectionAlgorithmBasedonExtensionofLabel[J].ComputerScience,2009,36(10):189-192.[4]李平红,王勇,陶晓玲.基于成对约束扩展的半监督网络流量特征选择算法[J].传感器与微系统,2013,32(5):146-149.LIPH,WANGY,TAOX.Semi-supervisednetworktrafficfeatureselectionalgorithmbasedonextensionofpairwiseconstraints[J].TransducerandMicrosystemTechnologies,2013,32(5):146-149.[5]BELLALF,ELGHAZELH,AUSSEMA.Asemi-super-visedfeaturerankingmethodwithensemblelearning[J].PatternRecognitionLetters,2012,33(10):1426-1433.[6]DAIK,YUHY,LIQ.Asemi-supervisedfeaturese-lectionwithsupportvectormachine[J].JournalofAp-pliedMathematics,2013,2013(1):1-11.[7]魏峰,何明一,申志明,等.高光谱数据基于流形的半监督特征选择[J].光子学报,2014,43(6):630002-630002.WEIF,HEMY,SHENZM,etal.Manifoldbasedsemi-supervisedfeatureselectionforhyperspectraldata[J].ActaPhotonicaSinica,2014,43(6):630002-630002.[8]林荣强,李鸥,李青,等.基于类标记扩展的半监督网络流量特征选择算法[J].计算机应用,2014,34(11):3206-3209.LINRJ,LIO,LIQ,etal.Semi-supervisednetworktrafficfeatureselectionalgorithmbasedonlabelexten-sion[J].JournalofComputerApplications,2014,34(11):3205-3209.[9]MALDONADOS,WEBERR,FAMILIF.Featurese-lectionforhigh-dimensionalclass-imbalanceddatasetsusingsupportvectormachines[J].InformationSci-ences,2014,286:228-246.[10]DULM,XUY,LIUJ,etal.GA-basedfeatureselec-tionmethodforimbalanceddatawithapplicationinra-diosignalrecognition[J].InternationalJournalof(下转第105页)99第5期杜利敏,等:一种面向不平衡数据的半监督特征选择算法中国煤炭期刊网 www.chinacaj.net
[3]SYLVAINP,VALERIER,BERTRANDM.UWBandMEMSbasedindoornavigation[J].TheJournalofNavigation,2008,61(3):675-585.[4]陈晓维,李校林.蜂窝网络中基于TDOA的CHAN定位算法性能分析[J].广东通信技术,2007(8):66-68.CHENXW,LIXL.CHANpositioningalgorithmper-formanceanalysisbasedonTDOAincellular[J].Guangdongcommunicationtechnology,2007,8:66-68.[5]ZHANGM,VYDHYANATHANA,YOUNGA,etal.Robustheighttrackingbyproperaccountingofnonlin-earitiesinanintegratedUWB/MEMS-based-IMU/barosystem[C]//PositionLocationandNavigationSysposium(PLANS),MyrtleBeach,SC,USA,2012IEEE/ION,2012:414-421.[6]JEROENDH.Sensorfusionandcablicationofinertialsensors,vision,ultra-widebandandGPS[D].Sweden:LinkopingUniversity,2011.[7]ALESSIODA,JOHNON,ISAACS,etal.Indoorpo-sitioningbyultrawidebandradioaidedinertialnaviga-tion[J].MetrologyandMeasurementSystems,2010,17:447-460.[8]杨洲.基于UWB/MEMS的高精度室内定位技术研究[D].徐州:中国矿业大学,2015.YANGZ.StudyonhighprecisionindoorpositioningtechnologybasedonUWB/MEMS[D].Xuzhou:Chi-naMiningUniversity,2015.[9]陆音,王宝全,丘觐玮.CHAN算法在LOS和NLOS环境下的定位研究[J].计算机技术与发展,2015,25(9):61-65.LUY,WANGBQ,QIUJW.StudyonpositioningofCHANalgorithminLOSandNLOS[J].Thecomputertechnologyanddevelopment,2015,25(9):61-65.[10]ISAACSKOG,PETERHANTEL,JOUNIRANTAKOK-KO.Zero-velocitydetection-analgorithmevaluation[J].IEEETransactionsonBiomedicalEngineering2010,57(11):2657-2660.[11]汪子嘉,于宏毅,胡赟鹏.基于最大似然准则的CHAN改进算法[J].计算机应用与软件,2014,31(9):240-243.WANGZJ,YUHY,HUBP.CHANimprovedalgo-rithmbasedonmaximumlikelihoodcriterion[J].Com-puterApplicationsandSoftware,2014,31(9):240-243.[12]RANAUDINV,MERMINODB,KASSERM.OptimaldatafusionforpedestriannavigationbasedonUWBandMEMS[C]//IEEE/IONPosition,LocationandNavigationSymposium,Monterey,CA,USA,2008,1(3):753-761.[13]庞艳.UWB精确定位算法研究[D].北京:北京交通大学,2016.PANGY.Theresearchonaccuratepositioningalgo-rithm[D].Beijing:BeijingJiaotongUniversity,2016.[14]EVAARIAS.AcooperativelocalizationalgorithmforUWBindoorsensornetworks[J].WirelessPersCom-muncation,2013,72:85-99.(责任编辑袁兴起)(上接第99页)ComputationalIntelligenceSystems,2015,8(s1):39-47.[11]WASIKOWSKIM,CHENX.Combatingthesmallsam-pleclassimbalanceproblemusingfeatureselection[J].IEEETransactionsonKnowledgeandDataEngi-neering,2010,22(10):1388-1400.[12]WANGR,TANGK.FeatureselectionforMAUC-orien-tedclassificationsystems[J].Neurocomputing,2012,89:39-54.[13]VEROPOULOSK,CAMPBELLC,CRISTIANININ.Controllingthesensitivityofsupportvectormachines[C]//ProceedingsoftheinternationaljointconferenceonAI.1999:55-60.[14]AKBANIR,KWEKS,JAPKOWICZN.Applyingsup-portvectormachinestoimbalanceddatasets[C]//Eu-ropeanconferenceonmachinelearning.Springer,BerlinHeidelberg,2004:39-50.[15]林智勇,郝志峰,杨晓伟.若干评价准则对不平衡数据学习的影响[J].华南理工大学学报(自然科学版),2010,38(4):147-155.LINZY,HAOZF,YANGXW.Effectsofseveraleval-uationmetricsonimbalanceddatalearning[J].JournalofSouthChinaUniversityofTechnology(NaturalSci-ence),2010,38(4):147-155.[16]ASUNCIONA,NEWMANDJ.UCIrepositoryofma-chinelearningdatabases[DB/OL].[2009-04-03].ht-tp://www.Ics.uci.edu/~mlearn/MLRep-ository.Html.(责任编辑袁兴起)501第5期朱彩杰,等:微惯性传感器辅助超宽带的室内定位方法中国煤炭期刊网 www.chinacaj.net
分享到:
收藏