毕业论文开题报告.doc

发布时间：2022-05-31 发布人：admin 分类：说明书资料大小：0.16M 资料格式：doc 举报版权申诉

第1页 / 共18页

hemianruige-9955583-硕士毕业论文开题报告.doc.pdf-第2页.png

第2页 / 共18页

hemianruige-9955583-硕士毕业论文开题报告.doc.pdf-第3页.png

第3页 / 共18页

hemianruige-9955583-硕士毕业论文开题报告.doc.pdf-第4页.png

第4页 / 共18页

hemianruige-9955583-硕士毕业论文开题报告.doc.pdf-第5页.png

第5页 / 共18页

hemianruige-9955583-硕士毕业论文开题报告.doc.pdf-第6页.png

第6页 / 共18页

hemianruige-9955583-硕士毕业论文开题报告.doc.pdf-第7页.png

第7页 / 共18页

hemianruige-9955583-硕士毕业论文开题报告.doc.pdf-第8页.png

第8页 / 共18页

文本预览

附件 1 学术学位硕士研究生学位论文开题报告及课题研究计划所在学院学科专业研究方向年学级号研究生指导教师入学年月计算机科学与工程计算机软件与理论信息检索 2013 级 2013 年 9 月

论文题目融合主题模型与协同过滤的个性化新闻推荐研究国家部委省、市、自治区横向联系自选 √ 基础研究应用基础工程技术其他 √ 题目来源题目类型经费一、论文选题的意义近几十年来，通信技术、互联网、移动互联网的不断发展，信息的采集、传播以及展示的速度和规模都达到了空前的水平，人类社会已从工业时代步入了信息时代。信息时代的降临为人们的生活带来了极大便利，知识技能的获取不用再找特定的老师，约定特定的地点进行，远程教育让你即使在家也可以进行学习，网络上大量的资料足以包含任何你想要的内容；电子商务让你随时随地享受购物的快乐；百度一下成为了无所不能的老师，大多数人有了问题首先想到的都是它。信息时代为人们生活带来极大便利的同时，也带来了不少困扰，其中之一就是信息过载，汹涌而来的信息出现在人的眼前，让人不知所措，无所适从。想要从浩瀚如烟的信息海洋中迅速而准确地获得自己最需要的信息，对用户来说已变得非常困难。搜索引擎和分类目录很大程度上为人们解决了信息过载带来的困扰。搜索引擎是信息检索技术在大规模文本集合上的实际应用，是目前最为高效的信息检索方式之一，当用户面临巨大的网络资源不知如何选择时，仅需要输入需求内容所包含的几个关键词，就能快速找到所需的信息，目前的网络搜索引擎如 Google 和百度，都具备了高可靠性的页面排序算法，不仅能找出用户想要的内容，还为内容的质量进行了排序；分类技术的应用非常广泛，haol23、360 导航等分类网站将互联网上主要的网站进行分门别类，各大综合门户网站将其内容划分成了诸如时政、财经、文化、教育等不同的板块，通过分类目录，方便了用户对需求内容的查找。以上两种方法在很大程度上协助人们解决了在浩瀚的信息中找寻自己需要信息的问题，然而，面对每天指数级增长的巨大信息，再强的搜索引擎，再大的分类网站也无法解决如下问题：一种情况是人们无从选择，不知道什么才是需要的信息，只有漫无目的

的浏览网站，寻找感兴趣的内容；另一种情况是人们无法准确描述自己的需求。鉴于以上原因，推荐系统开始得到大规模的使用。推荐系统是一种帮助用户快速发现有用信息的工具，它通过用户的历史行为数据分析用户的兴趣和偏好，给用户的兴趣建模，然后根据不同用户兴趣和偏好不同为其推荐能够满足他们兴趣和需求的信息。在新闻领域，同样面临了“信息过载”问题，每天，来自世界各地包括政治、经济、文化、娱乐、生活、社会各种不同板块的新闻铺天盖地而来，各大门户网站无时无刻不再更新各个地方、各个领域发生的大事小事。绝大多数人都有阅读新闻的习惯，为了帮助人们快速而精准地找到自己感兴趣的新闻，不在无聊的新闻阅读上花费时间，研究好的个性化新闻推荐系统成为了学术界和企业界的热点。二、国内外研究现状当前的推荐技术主要分为协同过滤推荐、基于关联规则的推荐、基于内容的推荐以及混合推荐等.协同过滤推荐是利用某个兴趣相投、拥有共同经验的群体的喜好来向使用者推荐其感兴趣的物品或信息，可以是利用当前用户与其他用户对部分项目的已知偏好数据来预测当前用户对其他项目的潜在偏好，或者利用用户对当前项目或者其他项目的已知偏好数据来预测其他用户对当前项目的潜在偏好[1]；关联规则挖掘是数据挖掘领域中一项重要的课题，它从大量数据中发现物品之间有趣的关联或相关联系。其核心思想是通过对已知数据的挖掘，发现大量数据中所蕴含的，满足一定支持度的规则模式及这些模式间的相互关系[2]。基于内容的推荐方法起源于信息检索和信息过滤的研究，是协同过滤推荐的延伸与发展。该方法对推荐对象进行内容上的挖掘与分析，基于用户历史行为获得用户的兴趣，并向用户推荐在内容上与其兴趣最匹配的物品[3]。混合推荐是将以上推荐方法按照不同的方式进行混合，取长补短，克服各自方法的不足。 2.1 个性化推荐技术研究现状基于用户的协同过滤是个性化推荐中最古老的算法，该方法在 1992 年被提出，并应用于邮件过滤系统。在最早期的协同过滤推荐系统中，系统需要用户指定兴趣相似的近邻，只有在用户了解彼此间的兴趣爱好之后才能做出推荐因此，只适用于规模较小且相互熟悉的小型用户群(例如同一办公室或研究小组)，而不适合于电子商务、互联网这种用

户群体庞大且相互陌生的环境[4]。之后出现了以 GroupLens 为代表的自动化的协同过滤推荐系统[5]，它允许用户使用评分等方式表达自己的兴趣偏好信息，系统根据兴趣相似的用户的评分信息为当前活动用户进行个性化推荐。自动化的协同过滤推荐系统不需用户指定相似用户，不需要用户之间相互了解，也不需要分析系统项目的内容，它能够自动寻找兴趣相似的用户，发现用户的潜在兴趣，具有较高的个性化和自动化程度，也正因为此，协同过滤算法受到了广泛关注。但随着用户数的增长以及网站规模的扩大，协同过滤算法出现了许多问题和挑战，诸如稀疏性问题，扩展性问题，冷启动问题等，后期的诸多研究也都是围绕如何解决这些问题展开。面对稀疏性问题，Sarwar 等人提出了基于项目的协同过滤算法，引入了项目间的相似度和矩阵降维技术，他们指出项目间的相似性要比用户间的相似性面临更低的稀疏性问题，而且更加稳定，项目间相似性的计算可以离线进行，可以提高系统的可扩展性[6]。有研究者提出了填充的方式，例如使用固定值填充(一般使用项目平均分或用户平均分)、贝叶斯分类预测填充等等。但该方法最明显的的缺点是在一定程度上抹煞了用户的兴趣和特征，尤其是在大规模的填充后，更是如此[7]。也有学者提出了引入平滑聚类的方法，使用用户-项目评分矩阵对用户进行聚类，然后，在同类用户中寻找兴趣相似用户，最后给出推荐[8]。但是用户兴趣多样，类别间存在交叉，因此，聚类标准难以确定，最终致使个性化推荐精度较低。针对可扩展性问题，学者们提出了基于模型的协同过滤算法，其基本思想是在离线状态下建立用户的兴趣模型，在线时使用建好的兴趣模型进行预测推荐，以此做到在线时快速响应的效果，建模中主要使用的算法有贝叶斯网络技术[9]，潜在语义技术[10]等。该类方法稳定性较好，实时性较高，可以在一定程度上解决可扩展性问题，但建模花费代价高，一般比较适合于用户兴趣与特征比较稳定的环境，不适用于数据频繁更新的系统，而且它还面临推荐精度较低等问题。面对协同过滤的冷启动、数据稀疏性、推荐准确性等问题，学者提出了基于内容的推荐方法。基于内容的推荐方法起源于信息检索和信息过滤的研究，是协同过滤推荐的延伸与发展。该方法对推荐对象进行内容上的挖掘与分析，基于用户历史行为获得用户的兴趣，并向用户推荐在内容上与其兴趣最匹配的物品[11]。该方法的核心在于对推荐对象内容特征的挖掘，并进行基于内容特征和用户行为的兴趣模型的构建。

随着文本信息挖掘技术的日益成熟，目前的研究中以推荐对象为文本的描述为主，基于给定的特定词组的集合，如关键词、属性词或者不限定特定词等，通过统计的方法进行基于文本特征向量的建模。将文本模型与用户兴趣模型进行相似度计算，判断该推荐对象是否符合用户的兴趣。基于内容的推荐不依赖其它用户的数据，能够准确地捕捉用户的兴趣，推荐效果较精确，能够推荐新出现的推荐对象和非热门对象，解决协同过滤推荐的冷启动和稀疏性问题。随着文本处理技术和信息检索技术的成熟，基于内容推荐方法对于文本类内容的推荐已具有相当的优势。但是其应用也存在着一定的局限性：对于无法通过机器学习规则或难于提取内容特征的内容无法进行有效推荐，如多媒体数据(视频、音频等)；无法挖掘用户对推荐对象的真实态度，即默认用户的购买和阅览等行为均为正面行为；过度特性化的推荐过程导致用户没有过行为的相关内容永远不会被推荐，推荐新颖性不足，使得用户失去发现不同类型信息的机会。随着各种推荐方法的发展，近年来有很多研究围绕着多种推荐方法的混合应用展开。混合推荐的主要目的是结合各个方法的优点，取长补短。按照在各个混合推荐系统中进行混合的时间点，可以将其分为以下两种：前期混合：直接混合几种推荐方法，属于方法层次上的混合。混合的策略可以分为互补混合、包含混合、分层混合。互补混合即通过某一算法获得另一算法所需的参数或初始点等，如通过马尔科夫蒙特卡洛方法得到贝叶斯混合效果回归模型的参数[12]。包含混合是指在某种推荐算法的框架内，混合另外一种算法。如为了克服协同过滤的稀疏性，通过基于内容推荐的特征提取方法，充实用户的兴趣模型，用于计算用户的相似性[13]。分层混合是指将多个推荐算法按照处理流程的先后顺序，将一个推荐机制的结果作为另一个的输入，得到更准确的推荐结果。后期混合：这种方法是指在不同的推荐方法产生推荐结果之后，将多个推荐引擎获得的结果混合，并通过一定的推荐策略或权重比重，向用户提供综合的推荐结果，以提高推荐的准确性和多样性，满足用户需求。这种基于推荐结果的混合方式，通常的方法有：对结果的线性加权组合、投票选择、分区组合等。虽然在理论研究方面主要承袭国外的一些理念，但国内也有了不小建设性的进步与发展，文献[14]从影响集的概念中得到启发，提出了基于影响集的协同过滤推荐算法，利用当前活动用户的影响集来提高评分密度，从而缓解稀疏性问题；文献[15]主要从用户及

项目本身的属性考虑，认为不同的用户，具有不同的兴趣与需求，他们总是在某个方面或者某几个方面的兴趣或需求相似，于是提出了一种基于概念格的用户兴趣预测算法，作者充分分析了文档独立性，有效地识别和划分用户偏好，符合用户之间仅仅在某一兴趣上相似、而并非所有兴趣都相似这一特点，该方法有效的缓解了协同过滤算法中的稀疏性问题以及冷启动问题。 2.2 个性化新闻推荐研究现状个性化新闻推荐领域，面对海量的新闻内容，如何发现新闻内容与用户之间的相关性，找到与用户兴趣爱好相似的新闻内容是个性化推荐新闻系统的关键。推荐系统通过分析用户行为，如用户浏览、用户评论和用户分享，可以发现用户的兴趣喜好，给不同用户提供不同的个性化页面展示，来提高网站的点击率和转化率。早期的新闻推荐系统可以为用户提供一定程度的内容定制，却不能随着用户的使用来动态调整推荐的新闻[16]、之后的新闻推荐系统如 Digg、Google News 都应用了协同过滤的推荐思想[17][18]，用大量兴趣相投、拥有共同经验的用户群之间的喜好的相似性，来向用户推荐感兴趣的新闻。但基于协同过滤的新闻推荐系统仍然存在一些缺陷，如系统没有对新闻内容进行挖掘致使用户兴趣表达不准确完整的问题；由于用户和新闻量的激增导致的系统实时处理能力问题；缺少历史数据而导致的新加入新闻无法被推荐的冷启动问题等[19]。基于内容的推荐方法已通过多种形式应用于新闻文章的个性化推荐系统中。在基于内容的新闻推荐系统中，计算各个新闻与用户兴趣间的相似度时通常需要考虑新闻内容，当给出一系列最近发布的新闻文章，并给出用户的阅读历史时，基于内容的推荐系统将循序地找到内容与用户阅读兴趣匹配的新闻。新闻内容通常由向量空间模型表示，或通过由语言模型获得的主题分布表示，并基于此对用户兴趣进行建模。传统的用户兴趣模型通常将用户兴趣抽象为关键词、命名实体序列、主题向量、语义网络、本体论等方式[20]。Amalthaea[21]从用户阅读过的新闻中抽取关键词，将用户兴趣表示为一组词语序列；文献[22]提出了一种 WEB 用户的兴趣模型，基于用户的导航信息和 WEB 内容分析，运用关键词抽象表达用户喜好。Liang，T.在关键词表示用户兴趣的基础上，提出了一个基于关键词的语义扩展模型[23]，挖掘用户的潜在兴趣。文献[24]、[25]分别应用语义网络和主题图的方法对用户兴趣进行分析和建模，将用户兴趣与其他用户及内容主题相关联。OBIWAN[26]使用用户浏览页面的主题本体来描述用户访问过的网页内容。

这些本体通常采用层次概念树的形式，树的每个节点表示了用户的一个兴趣类。文献[27] 将新闻以二叉树的模型聚类，并结合新闻聚类构建树形的用户模型，通过用户与新闻的树形路径进行推荐。文献[28]采用用户兴趣和场景兴趣来描述用户关注度，通过用户对内容的关注程度进行新闻推荐。文献[29]利用社会化网络推特中的信息来提取用户的兴趣模型。基于内容的推荐系统的代表例子包括 News Dude[30]，利用 TF-IDF 结合 K 最近邻居算法将新闻聚类，根据用户行为进行新闻推荐。YourNews 系统通过赋予用户改编其个人文件信息来增加新闻推荐的透明度[31]。Guo 提出基于标签概率生成模型的推荐系统[32]，在系统中引入了修正的 LDA (Latent Dirichlet Allocation)模型，并通过修正的 LDA 模型将标签和用户聚集成簇，以形成用户及群体兴趣信息，进而通过兴趣信息为用户推荐新闻。当前的基于内容的推荐方法中，新闻内容和用户的兴趣通常表现为一种预先设置的类别(体育、政治、娱乐等)，或是一组关键词序列或新闻的标签集合，抑或是词语间的关联图表示。然而在某些场景中，仅仅利用用户兴趣或新闻信息中的关键词不足以准确捕捉用户的阅读兴趣，这些方法并没有深入的挖掘新闻背后隐含的语义，将新闻的特性与用户的阅读习惯偏好相结合，使用户的兴趣无法兼顾新闻内容的事件针对性和多主题性，导致在进行个性化推荐时，用户兴趣的多样性表达不完整。同时当前的用户兴趣模型设计没有针对用户阅读新闻所处的情境信息以及兴趣迁移，忽略了用户阅读新闻时的特定场景和习惯，从而影响了推荐内容的准确性。一些推荐系统釆用混合的推荐方法[32]，将协同过滤与基于内容推荐的结果后期混合，在新闻推荐生成辅以过滤、冗余删除等步骤，将新闻推荐给用户，取得了不错的推荐效果。随着文本处理技术和信息检索技术的成熟，相比于协同过滤推荐，基于内容推荐方法对于文本类内容的推荐已具有相当的优势。然而个性化新闻推荐系统在基于内容的推荐上仍面临着诸多挑战：新闻模型和用户兴趣的表达。现有的新闻推荐方法通常基于新闻的关键词等文本特征或新闻标签[33]对新闻和用户兴趣进行建模，特征比较单一，没有兼顾新闻内容的事件针对性和多主题性；与此同时用户兴趣没有与用户行为的情境信息相融合，导致在构建用户兴趣模型和进行个性化推荐时，用户兴趣的表达不准确，多样性不完整。用户的兴趣很容易受到热门事件及网站新闻内容的影响。因此，即使某个用户对热

门新闻产生了行为，往往不能代表该用户的个性。因为用户可能是在跟风，或者这则新闻的链接到处都是，这些都会对用户兴趣的挖掘带来影响；用户对内容及主题的兴趣偏好也并非唯一，且伴随着时间随时可能发生改变，需要考虑用户的长期和短期兴趣。网站的新闻内容可能比较单一，对用户兴趣模型的建立会产生影响，甚至无法挖掘出用户的潜在兴趣。例如，某网站的新闻内容在体育方面较多，用户在浏览体育新闻的同时，偶尔也会关注其他新闻内容。那么，通过用户的历史行为进行用户兴趣建模时，其偏向体育的权值就会很高，甚至会掩盖用户对其他新闻的潜在兴趣，因此无法很好地表达用户的兴趣偏好。这样，在向用户推荐新闻时，推荐结果的新颖性会受到影响，因此系统很可能只会给其推荐有关体育的新闻，却并不知道用户可能还喜欢娱乐等新闻。另一个问题是新闻推荐生成，新闻的时效性强、更新速度快、生命周期较短，其流行度和新颖度是随着时间变化的这不同于其他系统的物品推荐(如商品推荐和电影推荐)，因此，基于内容的个性化新闻推荐需要一个完整的、全面的对初始新闻推荐列表的处理过程，结合用户行为反馈，在冗余重复删除，过滤用户行为数据的基础上，考虑新闻分类、时间性排序等因素。参考文献： B. J. Konstan, et al. Item-based Collaborative Sarwar, G Karypis, [1] 孟祥武.移动推荐系统及其应用[J].软件学报,2013,24(1):101-108 [2] 刘金亮.基于主题模型的个性化新闻推荐系统的研究与实现[D].北京邮电大学,2013 [3] 曹一鸣.基于协同过滤的个性化新闻推荐系统的研究与实现[D].北京邮电大学,2013 [4] 李聪.电子商务推荐系统中协同过滤瓶预问题研究[D].合肥工业大学,2009. [5] P. Resnick, N. lakovou, M. Sushak,et al. GroupLens: An Open Architecture for CollaborativeFiltering of Netnews[C]. In: Proceedings of ACM 1994 Computer Supported Cooperative Work,1994: 175-186. [6] Filtering RecommendationAlgorithms[C]. In: Proceedings of the 10th International World Wide Web Conference, 2001:99 285-295. [7] 黎明 , 徐德智 . 一种结合基于项目和用户的个性化推荐算法 [J]. 小型微型计算机系统,2011,32(4):611-613. [8]范敏敏.非负矩阵分解与聚类方法在个性化推荐系统中的应用研究[M].华东交通大学,2012. [9]王爱国,李廉,杨静等.一种基于 Bayesian 网络的网页推荐算法[J].山东大学学报(工学版),2011,41(4): 137-142. [10]陈登科,孔繁胜.基于高斯 pLSA 模型与项目的协同过滤混合推荐[J].计算机工程与应用,2010,23(4): 209-211. [11] Billsus,D.,Pazzani, M. 2000. User Modeling for Adaptive News Access. User Modeling and User-Adapted Interaction, vol. 10, nos. 2-3,(Feb. 2000),47-180. [12] Ansari A, Essegaier S, Kohli R. Internet recommendations systems. Journal of Marketing Research, 2000, 37(3):363-375. [13] Melville P, Mooney RJ, Nagarajan R. Content-Boosted collaborative filtering for improved

分享到：

赞收藏

资料库

毕业论文开题报告.doc

相关推荐

人工智能

热门标签

最新资料