上海交通大学硕士学位论文基于实例和特征的迁移学习算法研究姓名:戴文渊申请学位级别:硕士专业:计算机应用技术指导教师:俞勇20081201
中文摘要基于实例和特征的迁移学习算法研究摘要传统的机器学习假设训练数据与测试数据服从相同的数据分布。然而,在许多情况下,这种同分布假设并不满足。不满足同分布假设的情况往往发生在训练数据过期,而标注新数据非常昂贵。于是,我们有有了大量的在不同分布下的过期训练数据。完全丢弃这些数据将会是非常浪费的。在这种情况下,迁移学习就变得非常重要了,因为迁移学习可以从现有的数据中迁移知识,用来帮助将来的学习。迁移学习(TransferLearning)的目标是将从一个环境中学到的知识用来帮助新环境中的学习任务。因此,迁移学习不会像传统机器学习那样作同分布假设。在本文中,我们将会比较全面的回顾迁移学习的整个领域,并且介绍我们在迁移学习领域的近期研究成果。我们的工作可以分为两部分;基于实例的迁移学习和基于特征的迁移学习。我们将会展示出,基于实例的迁移学习有更强的知识迁移能力,而基于特征的迁移学习具有更广泛的知识迁移能力。这两种方法各有千秋。我们介绍了两种迁移学习方法,分别基于boosting技术和特征翻译。这两种算法分别对应基于实例的迁移学习和基于特征的迁移学习。我们通过非常全面的实验来证明我们的方法在迁移学习时候能够很大幅度提高很多现有的学习算法,无论是近迁移还是远迁移。关键词:迁移学习、实例、特征–I–
英文摘要Instance-basedandFeature-basedTransferLearningABSTRACTTraditionalmachinelearningtechniquesmakeabasicassumptionthatthetrainingandtestdatashouldbeunderthesamedistributions.However,inmanycases,thisidentical-distributionassumptiondoesnothold.Theviolationoftheassumptionmighthappenwhenthetrainingdataareoutofdate,butnewdataareexpensivetolabel.Thisleavesplentyoflabeledexamplesthatareunderasimilarbutdifferentdistribution,whichisawastethrowawayentirely.Inthissituation,transferlearningbecomesimportanttotaketheroleoflever-agingtheseexistingdataknowledge.Transferlearningaimsatusinglearnedknowledgefromonecontexttobenefitfur-therlearningtasksinothercontexts.Thus,transferlearningdoesnotmaketheidentical-distributionassumptionastractionalmachinelearningalgorithms.Inthisthesis,webroadlyreviewthewholefieldoftransferlearning,andthenintroduceourrecentworkontransferlearningaccordingly.Ourworkcanbedividedintotwoparts:instance-basedtransferlearn-ing,andfeature-basedtransferlearning.Wewillshowthatinstance-basedtransferlearninghasbetterstrengthinknowledgetransferring,whilefeature-basedtransferlearningiswithmoregenerality.Wepresenttwotransferlearningalgorithmsbasedonboostingtechniqueandfeaturetranslationrespectively.Thesetwoalgorithmscorrespondstoinstance-basedandfeature-basedtransferlearning.Ourextensiveexperimentsshowthatouralgorithmscangreatlyimproveseveralstate-of-the-artalgorithmsinthesituationoftransferlearning,includingneartransferandfartransfer.KEYWORDS:TransferLearning,Instance,Feature–II–
插图插图1–1日常生活中的迁移学习例子........................23–1关于TrAdaBoost算法基本思想的一个直观的示例。..........93–2TrAdaBoost算法的机制..........................123–3一个关于数据生成的示例..........................223–4三种算法在peoplevsplaces数据集上的效果............243–5TrAdaBoost算法在peoplevsplaces数据集上的迭代曲线....244–1一个直观的例子,用来说明六中学习策略的异同............264–2共同出现数据的例子:Flickr(http://www.flickr.com/).....274–3在12个数据集上的平均错误率.......................344–4对于不同的λ,TLRisk在12个数据集上的平均错误率..........34–IV–
表格表格3.120Newsgroups数据分布的描述.......................223.2SRAA数据分布的描述............................233.3当只有1%的源数据是训练数据时的分类错误率.............234.1文本辅助图像分类的数据描述.......................32–V–
第一章绪论第一章绪论机器学习作为人工智能的一个分支,目前正扮演着越来越重要的角色。利用机器学习的技术,计算机可以根据现有的数据进行自动的学习,整理出有用的知识,并应用在新的问题上。但是,和人的学习相比,机器学习还存在着明显的不足。具体来说,人的学习往往是终生的,所谓“活到老,学到老”。人可以通过不断学习,继承和发展过去学到的知识,持续增强自己的能力。而过去的机器学习绝大多数都是从零开始的,并不借鉴以前学到的知识,也不对学到的知识进行改进和发展。这很大程度上限制了机器学习的能力。究其原因,这是因为传统的机器学习基于统计学习。统计学习虽然在其能力范围内显示出了很好的学习效果。但是,由于统计学习基于数理统计,这就要求学习的知识和应用的问题必须具有相同的统计特征。于是,一般情况下,统计学习只能解决相同领域内、同一问题的学习,因为当学习和应用的场景发生迁移后,统计特征往往会发生改变,从而大大影响统计学习的效果。然而,在现实生活中,人们在学习时,借鉴的以前学到的知识往往很难和现在要学的知识来自同一个问题,属于同一个领域。例如,我们在学习物理的时候,需要大量借助以往建立起的数学基础。因此,人在学习时,具有在不同领域、不同问题之间进行只是迁移转化的能力,这正是目前机器学习所缺乏的。知识在不同场景之间迁移转化的能力被称作迁移学习(TransferLearning)。从心理学的角度来看,迁移学习是人的基本学习技能。具体来说,迁移学习是指一种学习对另一种学习的影响或习得的经验对完成其他活动的影响。平时我们说的举一反三、触类旁通等都属于迁移。心理学家发现,当两种学习在内容和方法上,或两种学习的刺激和反映无共同之处时,就不会有迁移作用的发生。若两种学习有共同因素时,就会产生迁移。共同因素越多,迁移作用就越大。如骑自行车与摩托车的原理基本上是一样的,有所不同的只是一个用脚踏,一个使用马达发动。骑自行车的技能几乎全可以迁移到学摩托车中去,因此就会起促进作用。此外,学会骑自行车对骑三轮车有损害,对开飞机没有什么帮助。如图1–1所示。由于传统的机器学习缺乏迁移学习的能力,这就造成了目前绝大多数的机器学习研究都是零起点的,即从“什么都不懂”开始学。在这种情况下,即便是人,学–1–