logo资料库

基于机器学习算法的研究热点趋势预测模型对比与分析 ——BP神经网络、支持向量机与LSTM模型_李静.pdf

第1页 / 共11页
第2页 / 共11页
第3页 / 共11页
第4页 / 共11页
第5页 / 共11页
第6页 / 共11页
第7页 / 共11页
第8页 / 共11页
资料共11页,剩余部分请下载后查看
收稿日期:2018-11-18作者简介:李静(1980-),女,博士研究生,研究方向:不确定性多属性决策与大数据决策方法。通讯作者:徐路路(1991-),男,博士研究生,研究方向:机器学习与知识发现;情报学理论与方法。·情报理论与前瞻观点·基于机器学习算法的研究热点趋势预测模型对比与分析———BP神经网络、支持向量机与LSTM模型李静1徐路路2*(1.同济大学经济与管理学院,上海200092;2.南开大学商学院信息资源管理系,天津300071)摘要:[目的/意义]细粒度分析学科领域热点主题发展脉络并对利用机器学习算法对未来发展趋势进行准确预测研究。[方法/过程]提出一种基于机器学习算法的研究热点趋势预测方法与分析框架,以基因工程领域为例利用主题概率模型识别WOS核心集中论文摘要数据研究热点主题并进行主题演化关联构建,然后选取BP神经网络、支持向量机及LSTM模型等3种典型机器学习算法进行预测分析,最后利用RE指标和精准度指标评价机器学习算法预测效果并对基因工程领域在医药卫生、农业食品等方面研究趋势进行分析。[结果/结论]实验表明基于LSTM模型对热点主题未来发展趋势预测准确度最高,支持向量机预测效果次之,BP神经网络预测效果较差且预测稳定性不足,同时结合专家咨询和文献调研表明本文方法可快速识别基因领域研究主题及发展趋势,可为我国学科领域大势研判和架构调整提供决策支持和参考。关键词:热点主题;发展趋势;机器学习;LSTM模型;支持向量机模型DOI:10.3969/j.issn.1008-0821.2019.04.003〔中图分类号〕G203〔文献标识码〕A〔文章编号〕1008-0821(2019)04-0023-11ComparisonandAnalysisofResearchTrendPredictionModelsBasedonMachineLearningAlgorithm———BPNeuralNetwork,SupportVectorMachineandLSTMModelLiJing1XuLulu2*(1.SchoolofEconomicsandManagement,TongjiUniversity,Shanghai200092,China;2.DepartmentofInformationResourcesManagement,BusinessSchool,NankaiUniversity,Tianjin300071,China)Abstract:[Purpose/Signficance]Fine-grainedanalysisofthedevelopmentcontextofhottopicsinthesubjectfieldandaccuratepredictionoffuturedevelopmenttrendsusingmachinelearningalgorithms.[Method/Process]Thispaperpro-posedaresearchhotspotpredictionmethodandanalysisframeworkbasedonmachinelearningalgorithm.Takingthefieldofgeneticengineeringasanexample,itusedthetopicprobabilitymodeltoidentifythehottopicsoftheWOScoresummarydataandconstructedthethemeevolutionassociation.Thenselectedthreetypicalmachinelearningalgorithms,suchasBPneuralnetwork,supportvectormachineandLSTMmodeltopredictandanalyze.Finally,thepredictionresultsofthema-chinelearningalgorithmwereevaluatedbyusingREindexandprecisionindex,andanalysedtheresearchtrendinthefieldsofmedicineandhealthandagriculturalfoodinthefieldofgeneticengineering.[Result/Conclusion]TheexperimentshowedthattheLSTMmodelhadthehighestpredictionaccuracyforthefuturedevelopmenttrendofhottopics,thepredic-—32—2019年4月第39卷第4期现代情报JournalofModernInformationApr.,2019Vol.39No.4
tioneffectofsupportvectormachinewasthesecond,thepredictioneffectofBPneuralnetworkwaspoorandthepredictionstabilitywasinsufficient.Atthesametime,combiningexpertconsultationandliteratureresearch,itshowedthatthismethodcouldquicklyidentifythetopicanddevelopmenttrendofgenefield.ItcouldprovidedecisionsupportandreferenceforthejudgementandadjustmentofthedisciplineinChina.Keywords:hottopics;developmenttrend;machinelearning;LSTMmodel;supportvector21世纪以来,面对日益加剧的科技创新演变和国际科技竞争态势,如何有效识别科学领域研究前沿热点并对未来科技发展态势进行预判至关重要。基于科技文献的研究前沿热点探测一直是科技战略情报的重点内容,宏观层面来讲可对国家学科架构规划、智库建设及基金规划制定提供决策支持,中观层面对于地区、高校、院系等体系的双一流建设和学科带头点培养起指导作用,而从个体微观角度来讲,研究热点的把握和趋势追踪对于科研工作者提升科研效率和科研产出意义显著[1]。因此,有效捕捉当前活跃的科研活动信息,从而追踪研究热点趋势成为一直以来关注的焦点。目前,很多学者围绕科学研究前沿及领域热点态势等进行了有效研究并取得了丰硕的成果。但与此同时,研究热点探测多基于引文分析方法存在时间滞后问题[2],同时存在词频统计分析语义不足、演化分析较为充分但预测分析不足以及粗粒度时间切片不能有效揭示热点主题的发展演化脉络等诸多问题[3],使得研究热点探测和趋势分析科学性存在不足。基于指数平滑、自回归模型、神经网络模型等方法的时间序列预测模型基于历史数据相空间重构和反馈传播从而把握事物演变态势并对下一时间段的发展进行预测,在金融证券、风电荷载及企业治理等领域应用广泛。但预测研究在情报学应用较少,存在场景融合力度不足以及预测方法传统单一等问题,因此,本文提出基于机器学习算法的研究热点预测模型,利用主题概率模型识别领域主题强度并以表征研究热点,尝试分析和对比不同机器学习算法预测效果以确定最优预测模型选择,对未来一段时间内的发展趋势进行定量分析。本文尝试寻求机器学习预测模型与研究前沿热点的应用结合点,也为情报学领域的前沿识别追踪领域提供一种新思路、新方法。1相关研究1.1研究热点梳理目前在情报学和科学学研究热点及前沿热点识别中主要分为两大类方法:引文分析方法(如共被引、文献耦合)和文本内容分析(词频分析、共词以及主题概率模型分析)。1973年,SmallH等[4]首次提出利用共被引聚类方法识别研究前沿热点主题。1994年,CarfieldSL等[5]利用共被引强度表征当前研究活动前沿信息并进一步对研究前沿热点内涵分析定义。KesslerMM[6]最早将文献耦合分析方法引入到前沿热点识别中来,该方法有效揭示文献间内在联系和学科架构变化,围绕该方法的研究逐步开展。如Pers-son[7]利用施引文献—被引文献二维矩阵揭示热点研究主题,MorrisSA等[8]基于文献耦合方法进一步可视化展示热点主题分布、演变与衰老动态时序变化。基于共被引和文献耦合等引文分析方法存在时间探测的滞后性,同时存在未深入文本内容、欠缺语义关系等问题一定程度上制约了热点主题探测的科学性。因此,目前基于词频分析、共词分析以及主题模型成为热点识别的主流先驱。2003年,BleiDM等[9]提出LDA模型从概率统计层面定量分析和识别出科技文献动态研究主题。2004年,ManeKK等[10]利用词频分析方法对生物医学领域文献进行结构分层并绘制研究热点主题地图。2012年,杨星等[11]提出基于主题模型的热点及趋势自动识别方法并在时间轴上对热点主题进行动态演化分析,相关研究学者还有傅柱等[12]、徐路路等[13]。目前基于研究热点和前沿探测的方法取得了显著的研究成果,演化分析较为充分但存在前瞻预测不足、预测方法单一老化等问题,因此本文将结合当前机器学习相关算法对识别出的研究热点主题进行预测分析。1.2基于机器学习预测方法梳理1970年,美国科学家博克斯首次提出利用时—42—2019年4月第39卷第4期基于机器学习算法的研究热点趋势预测模型对比与分析Apr.,2019Vol.39No.4
间序列建模分析实现事物发展趋势预测对模型设计、诊断、检验以及控制等进行了阐明。之后围绕时序建模的思想和方法逐渐完善并在经济趋势预测、国家产值预判及舆情风险评估等诸多方面取得了方法的应用。目前传统的时序预测方法主要有自回归、Kalman滤波法、滑动平均模型等。基于传统的时间序列预测方法侧重于数理统计,不具备自学习、自组织、自适应能力,尤其对于非线性及多特征维度的数据类型不能有效拟合和函数表达。随着万物互联和大数据生态环境的构建,基于神经网络、支持向量机回归及随机森林等模型的多种机器学习算法的时间序列预测模型日益发挥重要作用。2004年,张烈平等[14]提出一种基于BP神经网络的自学习预测建模系统,利用其并行结构和处理能力将仿真实验精准度有效提高。2008年,侯亚丽等[15]针对BP神经预测模型收敛慢且易局部收敛等缺陷,提出一种基于改进LM(Levenberg-Marquardt)优化算法的神经网络预测模型,修正后向传播权重调整策略和偏置优化有效提出模型运行效率,围绕BP神经网络及其他模型算法研究的还有夏玫等[16]、孙文俊等[17]及饶浩等[18]。2015年,罗知林等[19]提出基于随机森林算法的微博信息传播预测算法,利用随机算法的高维度特征抽取能力对微网络结构及等特征进行有效提取预测。2016年,李杰[20]提出改进粒子群算法的支持向量机预测模型有效克服其参数收敛及优化问题,并以工程造价领域进行实证预测研究。2017年,张宇航等[21]针对小样本电力荷载提出一种基于LSTM(LongShort-TermMemory,长短期记忆网络)模型的短期负荷预测方法有效逼近其预测函数机制。基于机器学习相关算法的预测模型在诸多领域取得广泛应用但在情报学研究领域尤其是前沿预测分析、热点状态追踪等方面相关研究尚未开展。因此,本文将尝试利用BP网络、支持向量机及LSTM模型对热点前沿主题进行预测分析并寻找最优预测效果。2方法框架为有效对研究热点进行趋势预测分析,本文提出一种基于机器学习算法的研究热点预测模型,首先以基因工程领域为例获取WOS核心合集摘要数据,然后利用LDA主题模型实现科技文献中信息抽取和主题强度表征热点度,进而利用余弦相似度定理建立主题关联构建,最后利用机器学习算法对其未来发展趋势进行预测分析并对不同机器学习算法预测能力进行评估验证。实验框架如图1所示。图1研究热点预测框架图2.1研究热点主题探测拟选用LDA模型为研究热点主题探测工具。LDA主题模型可以表达主题、主题词与文档3层语义结构,利用无监督机器学习方式抽取隐藏的主题信息并对主题词进行权重表示。研究热点表示一定时期内某一学科研究热情及研究主题强度,可用关键词或主题词的权重表示,权重越大表示研究主题越热门。利用机器学习算法进行研究热度预测首—52—2019年4月第39卷第4期现代情报JournalofModernInformationApr.,2019Vol.39No.4
先需要得出每子时期主题强度值。本文提出热点研究前沿主题强度指标如下:TIIzt=∑ni=1weight(ki)(1)其中,weight(ki)表示主题词权重比值;∑ni=1weight(ki)反映该主题累计主题词权重值,TIIzt即为该主题权重值,越大表示研究主题越热门,越代表当前研究的重心和科技竞争点。该指标的有效探测和预测可对热门研究前沿主题发展脉络准确把握和定位。2.2主题关联构建细粒度识别子时期研究主题热度后需探索不同时间片段主题集群内部与外部关联关系,从而得到不同主题在不同时期的前驱与后继关系形成动态主题链。本文基于余弦相似度的方法计算时序主题的相似度,构建基于时间序列发展的主题发展脉络,为后续基于机器学习算法做预测分析提供实验准备和基础。设定固定阈值进行相似度判定,相似度大于阈值则说明两个时间维度的热点主题为同一主题的演进与变化,公式如下所示:Sim(Topici,Topicj)=cosθ=∑nk=1wk(Topici)×wk(Topicj)∑nk=1w2k(Topici)[]×∑nk=1w2k(Topicj)[]槡(2)其中,分子表示两个主题向量的点乘积,分母表示两个主题向量的模的积。2.3机器学习算法预测模型对比分析选取目前时间序列预测研究中常用且准确度较高的3种机器学习算法作为本实验研究热点趋势预测模型,分别为BP神经网络、支持向量机和LSTM模型。2.3.1BP神经网络结构预测模型分析1986年,Rumelhart首次提出误差逆向修正多层反馈的BP神经网络,凭借其优越复杂模式分类能力和多维函数映射能力而取得了广泛应用。BP神经网络主要分为输入层、隐含层和输出层3层神经结构,采用经验风险最小和梯度下降法来计算目标函数最优值从而逼近函数表达,BP神经网络网络结构如图2所示。图2BP神经网络网络结构其中,{x1,x2,x3,…,xn}表示n维的模型输入单元,{y1,y2,y3,…,yn}表示模型输入,从输入到输出对应权重值w和偏置项b用于前向和后向传播参数调整。对于神经节点i输入可表示为:Hui=∑Jj=1WijVj=∑Jj=1Wijg∑Kk=1wjkxi()(3)经过隐层节点得到模型输入为:Oui=g(Hui)=g∑Jj=1Wijg∑Kk=1WjkXi()[](4)对于任意输入模式u和输入单元定义误差函数为:Eu(w)=12(xui-yui)2=12[xui-g(∑jWii)g(∑Wijxui)]2(5)进而对神经元结构进行误差平均处理得到模型预测器的误差,使得隐层前向网络结构能够逼近定义在Rn一个密集任意非线性函数得出模型最优解。BP神经网络作为机器学习算法的一种具有较好的自学习、自适应能力和一定的推广能力。但BP神经网络面对复杂优化目标函数神经元输出逼近真实值时期训练效果较差且易陷入局部最优,其网络结构和神经元需人为设定具有较强的主观性,而该模型预测的推广能力和泛化能力也有待于进一步提升。2.3.2支持向量机(SVM)预测模型分析20世纪90年代科学家Vapnik等提出支持向量机(SupportVectorMachine,SVM)算法,基于结构风险最小化寻找归纳统计设计模型以实现最小风险泛函,利用核函数将数据从低维度映射高维度空间降低了维度灾难和计算复杂度而具有较好的推广能力,在电力预测、文本分类等诸多领域取得了广—62—2019年4月第39卷第4期基于机器学习算法的研究热点趋势预测模型对比与分析Apr.,2019Vol.39No.4
泛应用。支持向量机采用核函数原理,将数据从低维空间映射到高维空间,有效避免“维数灾难”,提高了非线性数据的拟合能力(如图1左侧图所示),利用核函数计算值K(xi,x)表达多维向量内积计算时间t时间段内前m数据(即数据时间窗口为m)预测结果输出,如图3右侧图所示。图3支持向量机预测模型分析相比于BP神经网络等传统神经网络算法,SVM模型采用结构风险最优而其推广能力一直是该模型的优点之一。对于给定样本(xi,yi)(i=1,2,3,…,N),N为样本容量,xi为输入向量,yi为输出目标,SVM模型采用高维映射特征空间Rn到Rm再在特征空间利用线性函数进行函数逼近:y=f(X)=[W,φ(X)]+b(6)式中,W、f(X)为m维矢量数据,b为函数阈值,y表示点积处理后函数值。根据统计学理论SVM最小化目标函数得到拟合回归函数公式:minW,b∶12W2+c∑ni=1yi-[W,φ(xi)-bI](7)式中c表示控制模型损失1/2w2和训练模型复杂度的惩罚系数,i=1,2,…,n表示支持向量机点数。利用核函数可实现数据高维映射特征空间,进而在不影响计算复杂度的前提下输出模型预测时序结果。g(xi)=wTΦ(xi)+b=∑mi=1αi[Φ(xi)Φ(x)]+b=∑αik(xi,x)+b(8)支持向量机具有较强小样本学习能力和非线性拟合能力,不容易陷入局部最优同时参数设置相对简易,因此在机器学习时序预测领域取得了较为普遍的应用,但在情报学科学研究前沿探测和预测分析中的应用较少,因此本文选用支持向量机模型作为机器学习算法的一类展开论述分析。2.3.3长短期记忆网络(LSTM)预测模型分析长短期记忆网络(LongShortTermMemoryNetworks,LSTM)作为特殊的RNN,有效克服了其在机器学习中梯度消失和梯度爆炸的缺陷,对于间隔和延迟相对较长的时序数据具有强度处理能力。LSTM预测模型结构包括:输入序列X={x1,x2,x3,…,xn}、时序步长及相应输入xt以及控制信息传递的遗忘门ft、输入门it和输出门ot,如图4所示,在t时刻时t-1时刻输入ht-1及记忆细胞状态Ct-1到达并结合此时刻输入通过输入门并由遗忘门f过滤后得到该时刻模型输出。图4LSTM模型预测模型结构分析对于LSTM输入:zt=∑Ii=1wxixti+∑Hh=1whiht-1i+∑Cc=1wsist-1c+bi(9)yt=f(zt)(10)式中,wxi、whi、wsi分别代表不同细胞机制权重分布,第一项表示与输入门相关的外部信息变量,第三项表示cell中的输入部分,第二项表示t-1时刻泛指状态,因为LSTM模型单元相关关联其—72—2019年4月第39卷第4期现代情报JournalofModernInformationApr.,2019Vol.39No.4
隐层节点信息共享,则它可视为外部输入的一部分,b为偏置向量,f表示sigmoid激活函数。遗忘门和输出门机构机理和相关参数与输入相似,最终隐层单元状态值由tanh激活函数得到输入预测值。珋yt=σ(w*h+b)(11)表1基于LSTM预测模型算法示意算法:基于LSTM模型的研究热点预测算法Input:K:主题强度值D:相空间重构且窗口滑动后标签值Output:未来一定时间研究热度预测值Method:训练数据与测试数据选取并对输入数据进行规范化处理窗口及预测步长设置确定标签数据值基于LSTM模型细胞结构实现主题热度预测算法:a.将输入数据Xt与上一时刻输出ht-1及状态值传递到隐藏层单元进行门阀计算b.经过细胞遗忘门sigmoid神经网络产生二维分布0和1以决定信息是否通过c.Xt和ht-1等参数值经过遗忘门后结合tanh函数产生t时刻Cell状态值d.通过LSTM单元输入门,通过sigmoid函数得到初始输出并利用tanh函数进行[-1,1]数据缩放并与其相乘处理得到预测输出hte.由输出ht计算模型最终预测值并按照损失函数计算值进行损失计算,后向传播调整权重分布和参数更新以逼近函数值f.测试数据集输入并利用训练得到LSTM模型进行数值预测得到未来一段时间内的研究热点预测值3实证研究3.1实验平台硬件:Window10操作系统、GenuineIntel(R)CPU@1.70GHz、8GRAM软件:Anaconda、基于Tensorflow(GPU版本)后端的Keras深度学习框架、Rapidminer3.2数据集及预处理数据库:Wos核心论文集中基因工程领域论文数据时间跨度:1965年至2017年检索式:Keyword=“GeneticEngineering”检索结果:2764项。自1965发表第一篇以基因工程为主题的文章但受限于当时科研条件和理论基础该研究后续未广泛展开。1998年围绕基因工程主题论文的研究相继展开,科研产出数量逐年增加,自2003年开始相关研究呈现高度发展状态,后续科技年代维持高热情、高产出的发展态势。本文利用LDA模型识别大规模文档数据集中主题分布,因此为保证数据样本充足性选用2003年为起始年份,以年为基本处理时间区间共计15年子区间。3.3主题识别实验3.3.1LDA相关参数设置本文选用LDA模型进行主题识别。LDA(La-tentDirichletAllocation,隐含狄利克雷分配)是包括文档集层、主题层及特征词层3层结构的贝叶斯概率分布模型,通过概率统计和参数拟合模拟大规模文档生成过程,抽取科技文献中具有代表实际意义的主题词进而可以深度挖掘文本数据蕴含的隐含主题信息拓扑结构。文档集中主题数为超参数,在进行主题识别前需确定多源信息数据主题数目。复杂度(Perplexi-ty)是衡量一个语言模型优劣常用的一个指标,David等提出复杂度指标并定义一个有M篇文档的文档集的主题模型的复杂度为:perplexity(Dtest)=exp-∑Md=1logp(wd)∑Md=1logNd{}(12)其中,M是文档集中文档的数目,P(Wd)是PLDA模型生成第d篇文档的概率,Nd是单词的个—82—2019年4月第39卷第4期基于机器学习算法的研究热点趋势预测模型对比与分析Apr.,2019Vol.39No.4
数,当perplexity(Dtest)最小时,主题具有较好的语义表达效果,建立主题文档映射,确定文档集中的主题数。本文对主题数目及复杂度动态对应关系进行实验,经实验主题步长最终主题数选择100。图5主题数和模型复杂度的对应曲线3.3.2主题表征利用余弦相似度定量建立不同子时期主题关联关系,进而在时间序列维度上建立一整条动态时序主题链,时间跨度为2003-2017年间。经实验相似度阈值取0.5时,主题演化和关联度较好,可以较为完整地表达不同主题类型在时间窗口的跃迁和演化特征。表2中相似度计算可以选择相似度阈值大于0.5的主题类型建立关联,即2014年中Topic_1在2015年发展为Topic_2进而成为Topic_7(2016),同理则可得到10个主题的主题发展变化。建立主题动态时序链为后续进行机器学习算法预测研究提供理论基础,而具体主题强度值利用LDA模型实验可以得到主题词权重表征研究热度,进而探测不同主题研究热度在时间序列上的发展变化规律,对未来基因工程领域发展趋势进行研判。表2主题相似度计算主题(2014)主题(2015)JS相似度主题(2015)主题(2016)JS相似度主题(2016)Topic_1Topic_20.6011Topic_2Topic_70.5011……Topic_1Topic_90.3770Topic_2Topic_20.4343……Topic_1Topic_40.3011Topic_2Topic_90.3411……Topic_1Topic_00.1515Topic_2Topic_00.1515……Topic_1Topic_20.0011Topic_2Topic_10.0155…………………………………………LDA主题实验得到15个子时期和单个子时期10个主题。基因工程具体主题及主题词表征如表3所示,利用本文2.1中提出主题强度计算公式计算得出10个热点主题强度值发展变化见表4。表3基因工程领域主题表征(时间跨度为年)子时期主题词2003年MaterialsMethodsApproachesStudyProteinEngineeringRawStudentsDataDells2004年SpeciesDesignEvolutionInsectForestryProvideRangeFieldMaterialsComputational2005年EngineeringScienceProjectMaterialsHeparVaccinationInheritedHostSystemsModel2006年CellsDesignUnderstandingDevelopmentEngineeringThirdGenerationGeneticMutationHepar2007年MolecularEvolutionHumanHealthReplaceExpressModelCellularGeneticDevelop2008年ClimateStakeholdersSocialWaterUnderstandingVulnerabilityManagementNaturalImpactsCoastal2009年PlantsUnderstandingEvolutionaryMicrobialStudentsDataBiodiversityProvideFungiGenes2010年ModelCellularOptimizationAlgorithmsSoftwareNetworkPowerMethodsSocialWater2011年MarshMarshesStudentsSustainabilitySystemsClimateStakeholdersSocialWaterUnderstanding—92—2019年4月第39卷第4期现代情报JournalofModernInformationApr.,2019Vol.39No.4
表3(续)子时期主题词2012年NaturalImpactsCoastalResearchProjectSpeciesGeneticPlantDiversityEvolution2013年PotentialManufacturingPhaseSystemsDesignDevelopmentInsectForestryModelCellular2014年PropertiesStudentsEnergyPolymerApplicationsMaterialScienceFundHumanHealth2015年RequencyClimateHumanEngineeringScientificGeneticEbolaProjectVirusSpin2016年VitiumMasterDiagnosisRepairPreventHumanVehiclesTurbulentEngineeringSustainability2017年ManufacturingPhaseSystemsDesignDevelopmentFutureResearchDataMaterialsHepar表4基因工程主题强度值(部分)Topic0Topic1Topic2Topic3……2003年10825463176……2004年97105572114……2005年8336449083……2006年105224643460……2007年116118764764……2008年361205741431……2009年297379650650……2010年487421379809……2011年933477297764……2012年10119214901011……2013年871709509921……2014年1751032227934……2015年410690142873……2016年640991208917……2017年8811079465936……3.4机器学习算法研究热点预测与对比3.4.1实验设置选用BP神经网络、支持向量机模型以及LSTM预测模型为本文研究热点预测器。本文热点主题探测区间为15年,选择前10年为训练数据集,后5年为测试数据集,选择相对误差作为模型预测评估指标。时间序列数据标签化处理,滑动时间窗口为1,时间步长为1年,即t年研究热点预测未来t+1年的发展情况。BP神经网络选用三层神经元结构,神经元为1-20-10-1分布,m表示相空间重构数为1,训练迭代次数为50,神经网络学习率为常数0.01。支持向量机模型中参数Gam-ma决定数据映射高维度特征空间分布,设置为1.5,内存大小Cache参数为400,惩罚函数中系数C设置为1.2,终止判据Epsilion设为0.001,支持向量机和BP神经网络利用Rapidminer机器学习算子实现,LSTM预测模型则利用Python3.5中的Keras框架下搭建两层10维神经元层和一层Dense预测输出,训练批量Epochs设置为50共迭代实验50经后向传播参数调整后结果趋于稳定收敛,评价模型为相对误差。3.4.2实验结果选用相对误差指标(RE,RelativeError)描述模型预测效果。公式如下,其中表示相对误差,yt表示真实值,^yyt表示模型预测值。本文测试集共分10个主题及每个主题下后5年的主题强度值,对每个主题不同子时期求得相对误差RE并对其均值处理得到该主题的平均预测精度。部分基于不同机器学习算法预测精度比较见表5,以Topic0为例对2013-2017年主题热度值分别利用BP神经网络、支持向量机及LSTM模型进行预测分析并最终得到该主题平均相对误差分别为15.69%、12.98%和10.75%,可见对于该主题LSTM模型预测精度较高,支持向量机预测效果低于LSTM模型但高于BP神经网络预测模型,但对于Topic2而言预测精度最高的为支持向量机(10.96%),LSTM模型和BP神经网络预测精度相差较小分别为13.08%和14.25%。RE=yt-^ytyt(13)为有效表达机器学习算法对于基因工程领域不同主题预测效果需要对10个主题分别计算平均相对误差并统计得到模型预测准确度,即百分之百与相对误差的差值处理。实验分析得出所有主题基于—03—2019年4月第39卷第4期基于机器学习算法的研究热点趋势预测模型对比与分析Apr.,2019Vol.39No.4
分享到:
收藏