中山大学硕士学位论文基于词语权重改进的朴素贝叶斯分类算法的研究与应用姓名:刘林申请学位级别:硕士专业:计算机软件与理论指导教师:王若梅20090524
基于词语权重改进的朴素贝叶斯分类算法的研究与应用摘要论文题目:基于词语权重改进的朴素贝叶斯分类算法的研究与应用专业:计算机软件与理论硕士生:刘林指导教师:王若梅教授摘要随着信息技术尤其是Internet相关技术的发展与成熟,人们已经进入一个信息海量、高速化的时代。这就对人们传统的上网方式提出了挑战,即能否更快更全的找到并接收你感兴趣的信息。RSS阅读器的出现无疑在一定程度上解决了这个问题。同时,使用Web文档自动分类技术可以更加有效地组织和管理Web资源,提高信息检索的效率,它目前已成为Web挖掘的研究热点之一。朴素贝叶斯分类模型以其坚实的数学基础和丰富的概率表达能力,尤其是它能充分利用先验信息的特性越来越受到人们的重视,成为数据挖掘领域中的一个热点,在数据挖掘中具有广泛的应用。目前对于它的研究工作主要集中在探讨它的条件独立性假设和如何改善其性能方面。本文利用加权朴素贝叶斯算法来改进其分类性能,同时考虑到传统权重计算方法TFIDF存在一定的缺陷,提出了一种新的权重计算公式TF-IDF-RTC,该方法将特征项与类别之间的关联性考虑到了权重计算公式里面,用来突出那些在类别中作用比较大的特征项,实验证明是可行的。本文将RSS技术与朴素贝叶斯分类算法进行了一个很好的结合,构建了一个自动发布系统,该系统利用RSS技术收集信息源,对通过解析RSS摘要得到的一些内容利用朴素贝叶斯分类算法进行信息条目的分类,该发布系统已经应用于功能性纺织业界信息的收集与发布中。关键词:RSS技术,朴素贝叶斯分类算法,特征权重,TF-IDF-RTC,自动发布系统
基于词语权重改进的朴素贝叶斯分类算法的研究与应用AbstractTitle:ResearchandApplicationofNaiveBayesClassificationalgorithmBasedonFeatureweightingMajor:ComputerSoftwareandTheoryName:LinLiuSupervisor:Prof.RuomeiWangAbstractWiththedevelopmentandsophisticatedofinformationtechnology,Wehaveenteredanerawithlargeamountandhighspeedinformation,whichchallengethetraditionalwaytoaCCeSSInternet,thatis,whetherwecanfindandreceivetheinterestedinformationeffectivelyandefficiently.TheemergenceofRSSreadermachinecansolvetheproblemtosomeextent.Atthesametime,WebdocumentautomaticcategorizationtechniquecanbeusedtoeffectivelyorganizeWebinformationresourceandimprovetheefficiencyofWebsearch.IthasbecomeahotresearchareaofWebmining.InrecentyearspeoplcattachimportancetotheNaiveBayesClassificationbecauseofitssolidmathbaseandabundantexpressioncapacityofprobabilityespeciallyitscharacteristicofmakinggoodUseofthetranscendentinformation.NaiveBayesClassificationishotspotsandiswildlyusedintheareaofthedatamining.Atpresent,peoplefocustheirresearchontheassumptionofconditionindependenceandhowtOimproveitsperformance.Inthispaper,theweightedNaiveBayesClassificationalgorithmisusedtoimprovetheclassificationperformanceandanewformulaTF-IDF-RTCforcalculatingtheweightingoffeaturesisproposedtosupplyagapoftraditionalweightingcalculatingmethodTFIDEThenewformulatakesthere,vancebetweenfeaturesandclassificationsintoaccounttohighlighttheroleofthosefeatureswhicharestrongⅡ
基于词语权重改进的朴素贝叶斯分类算法的研究与应用Abstractcorrelationwithcategories.Experimentsproveittobefeas访le.ThesystemcombinesRSStechnologywithNaiveBayesianclassificationalgorithm,itusesRSStechnologytogatherinformationsourceandclassifytheitemsusingNaiveBayesclassificationalgorithm.AnapplicationplatformisbuiRandisappliedtogatherandreleaseinformationoffunctionaltextiles.KeyWords:RSStechnology,NaiveBayesianclassificationalgorithm,featuresweighting,TF-IDF-RTC,automatedreleasesystem.m
论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究作出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名:赳球日期:亟!!刍筚主as2垒日
学位论文使用授权声明本人完全了解中山大学有关保留、使用学位论文的规定,即:学校有权保留学位论文并向国家主管部门或其指定机构送交论文的电子版和纸质版,有权将学位论文用于非赢利目的的少量复制并允许论文进入学校图书馆、院系资料室被查阅,有权将学位论文的内容编入有关数据库进行检索,可以采用复印、缩印或其他方法保存学位论文。学位论文作者签名:如l株日期:o)Q口1年岁月≯妒日导师签名:立羞嗜码日期:刚年j月砷日
基于词语权重改进的朴素贝叶斯分类算法的研究与应用第1章绪论1.1研究背景及意义第1章绪论随着网络的普及和相关技术的发展,互联网已经成为主流的信息发布源之一,越来越多用户通过网络浏览来获取新闻。但是传统的网页浏览方式随着网络信息的累积和扩展也暴露出一些问题,例如纷繁复杂的新闻首页为用户的浏览带来了困扰,网页内容的更新也难以被用户第一时间获取,传统的一些搜索引擎也只能提供大量相关的非精确信息。这就使得用户在搜索自己所需要的信息上花很多的时间都搜索不到准确信息。因此,如何快捷高效地筛选并整合对用户有用的知识成为了互联网技术中的关键研究问题之一。由于Internet上充满的大量信息是以超链接的形式组织在一起的,所以在信息发布的时候,很多情况下人们并非只在自己的网站上发布原创新闻,往往还需要引用其他网站上的新闻来充实自己的内容。在一个网站中引用的新闻如果来自多个不同的站点,这是一种新闻聚合(newsaggregation)过程。新闻聚合是一种基于订阅的内容交换过程,当新闻发布者与读者达成某种协议后,由新闻发布者向读者提供特定的内容。新闻聚合技术可以避免传统Web浏览方式的一些弊端,比如说用户需要打开多个浏览器窗口,进入不同的门户网站,再从这些站点寻找感兴趣的标题,点击相应的链接后才能看到目标信息。同时,并非任何人都可以在网站上发布信息,一般来说只有网站的信息管理员才有权更新网站内容,网站信息管理员的工作量与新闻发布者的数量、需要发布的新闻条数以及需要更新的网页数量三者的乘积成正比,而且每一条新闻和每一个网页的更新都是独立进行的。如果信息的发布与更新都由人手工完成的话,一方面工作量会非常大,同时也会存在很多手工的错误。正是因为传统Web浏览方式存在这些问题,新一代信息发布技术RSS应运而生。目前,RSS文档的分类依赖于预先设定。例如,百度的RSS新闻订阅,把新闻分为若干类,分别是:国内新闻、国际新闻、互联网、科技、社会、娱乐、
基于词语权重改进的朴素贝叶斯分类算法的研究与应用第1章绪论体育等。可以看出,这样的分类存在着不足。其中很重要的一个问题就是用户不能按照自定义的类别去订阅这些新闻。RSS技术发展到今天受到越来越多用户的推崇,因为它从根本上改进了传统的被动获取新闻的方式,而采用了一种更加人性化的、互动性强的机制。RSS技术目前广泛应用于Blog、Wiki和网上新闻频道等。本文针对目前存在的这些问题,主要研究如何通过RSS技术收集信息源,并解析RSS摘要,然后通过朴素贝叶斯分类算法进行信息内容的自动分类。1.2国内外研究现状国外对文本自动分类的研究始于20世纪50年代末,H.P.Luhn首先将词频统计思想用于自动分类,在该领域进行了开创性研究。1960年,Maron在JournaloftheACM上发表了有关自动分类的第一篇论文{Onrelevance,probabilisticindexingandinformationretrieval》[1],其后许多学者在这一领域进行了卓有成效的研究,如K.Spark、G.Salton以及R.M.Needham、M.E.Lesk、K.S.Jones等[2]。到目前为止,国外的文本自动分类研究已经从最初的可行性基础研究经历了试验性研究进入到了实用化阶段。1994年,AT&T实验室的DavidD.Lewis等人研究了基于非确定性的分类技术。两年后,该实验室将分类的技术应用于电子邮件领域。1997年,德国Dortmund大学计算机系的TorstenJoachims等人对基于向量空间模型的自动分类系统做了研究。同年,美国Stanford大学计算机系的DaphneKole等人提出了基于很少语料词汇的层次自动分类方法。1998年,美国CarnegieMellon大学计算机系的YimingYang等人在文本在线自动分类领域中应用了决策树等聚类算法。1999年,美国JustResearch公司的AndrewMcCallum等人运用信息熵理论、Bayes理论等实现了多类号的自动分类。随后,美国Massachusetts大学计算机系专门针对文本库开发了自动分类系统,为了推广电子商务,美国IBM和Oracle公司研制了基于文本内容的电子邮件自动分类系统,Microsoft公司也为其浏览器开发了基于内容属性分类的插件。在20世纪60年代和20世纪80年代末期间,由专家人工构建的基于知识工程技术的分类系统一直是最有效的文本分类系统。其典型应用就是卡内基集团委2