logo资料库

毕业论文开题报告.doc

第1页 / 共18页
第2页 / 共18页
第3页 / 共18页
第4页 / 共18页
第5页 / 共18页
第6页 / 共18页
第7页 / 共18页
第8页 / 共18页
资料共18页,剩余部分请下载后查看
附件 1 学术学位硕士研究生学位论文开题报告 及课题研究计划 所在学院 学科专业 研究方向 年 学 级 号 研 究 生 指导教师 入学年月 计算机科学与工程 计算机软件与理论 信息检索 2013 级 2013 年 9 月
论文题目 融合主题模型与协同过滤的个性化新闻推荐研究 国 家 部 委 省、市、自治区 横 向 联 系 自 选 √ 基础研究 应用基础 工程技术 其 他 √ 题目来源 题目类型 经 费 一、论文选题的意义 近几十年来,通信技术、互联网、移动互联网的不断发展,信息的采集、传播以及 展示的速度和规模都达到了空前的水平,人类社会已从工业时代步入了信息时代。信息 时代的降临为人们的生活带来了极大便利,知识技能的获取不用再找特定的老师,约定 特定的地点进行,远程教育让你即使在家也可以进行学习,网络上大量的资料足以包含 任何你想要的内容;电子商务让你随时随地享受购物的快乐;百度一下成为了无所不能 的老师,大多数人有了问题首先想到的都是它。信息时代为人们生活带来极大便利的同 时,也带来了不少困扰,其中之一就是信息过载,汹涌而来的信息出现在人的眼前,让 人不知所措,无所适从。想要从浩瀚如烟的信息海洋中迅速而准确地获得自己最需要的 信息,对用户来说已变得非常困难。 搜索引擎和分类目录很大程度上为人们解决了信息过载带来的困扰。搜索引擎是信 息检索技术在大规模文本集合上的实际应用,是目前最为高效的信息检索方式之一,当 用户面临巨大的网络资源不知如何选择时,仅需要输入需求内容所包含的几个关键词, 就能快速找到所需的信息,目前的网络搜索引擎如 Google 和百度,都具备了高可靠性的 页面排序算法,不仅能找出用户想要的内容,还为内容的质量进行了排序;分类技术的 应用非常广泛,haol23、360 导航等分类网站将互联网上主要的网站进行分门别类,各大 综合门户网站将其内容划分成了诸如时政、财经、文化、教育等不同的板块,通过分类 目录,方便了用户对需求内容的查找。 以上两种方法在很大程度上协助人们解决了在浩瀚的信息中找寻自己需要信息的问 题,然而,面对每天指数级增长的巨大信息,再强的搜索引擎,再大的分类网站也无法 解决如下问题:一种情况是人们无从选择,不知道什么才是需要的信息,只有漫无目的
的浏览网站,寻找感兴趣的内容;另一种情况是人们无法准确描述自己的需求。鉴于以 上原因,推荐系统开始得到大规模的使用。 推荐系统是一种帮助用户快速发现有用信息的工具,它通过用户的历史行为数据分 析用户的兴趣和偏好,给用户的兴趣建模,然后根据不同用户兴趣和偏好不同为其推荐 能够满足他们兴趣和需求的信息。 在新闻领域,同样面临了“信息过载”问题,每天,来自世界各地包括政治、经济、 文化、娱乐、生活、社会各种不同板块的新闻铺天盖地而来,各大门户网站无时无刻不 再更新各个地方、各个领域发生的大事小事。绝大多数人都有阅读新闻的习惯,为了帮 助人们快速而精准地找到自己感兴趣的新闻,不在无聊的新闻阅读上花费时间,研究好 的个性化新闻推荐系统成为了学术界和企业界的热点。 二、国内外研究现状 当前的推荐技术主要分为协同过滤推荐、基于关联规则的推荐、基于内容的推荐以 及混合推荐等.协同过滤推荐是利用某个兴趣相投、拥有共同经验的群体的喜好来向使用 者推荐其感兴趣的物品或信息,可以是利用当前用户与其他用户对部分项目的已知偏好 数据来预测当前用户对其他项目的潜在偏好,或者利用用户对当前项目或者其他项目的 已知偏好数据来预测其他用户对当前项目的潜在偏好[1];关联规则挖掘是数据挖掘领域中 一项重要的课题,它从大量数据中发现物品之间有趣的关联或相关联系。其核心思想是 通过对已知数据的挖掘,发现大量数据中所蕴含的,满足一定支持度的规则模式及这些 模式间的相互关系[2]。基于内容的推荐方法起源于信息检索和信息过滤的研究,是协同过 滤推荐的延伸与发展。该方法对推荐对象进行内容上的挖掘与分析,基于用户历史行为 获得用户的兴趣,并向用户推荐在内容上与其兴趣最匹配的物品[3]。混合推荐是将以上推 荐方法按照不同的方式进行混合,取长补短,克服各自方法的不足。 2.1 个性化推荐技术研究现状 基于用户的协同过滤是个性化推荐中最古老的算法,该方法在 1992 年被提出,并应 用于邮件过滤系统。在最早期的协同过滤推荐系统中,系统需要用户指定兴趣相似的近 邻,只有在用户了解彼此间的兴趣爱好之后才能做出推荐因此,只适用于规模较小且相 互熟悉的小型用户群(例如同一办公室或研究小组),而不适合于电子商务、互联网这种用
户群体庞大且相互陌生的环境[4]。之后出现了以 GroupLens 为代表的自动化的协同过滤推 荐系统[5],它允许用户使用评分等方式表达自己的兴趣偏好信息,系统根据兴趣相似的用 户的评分信息为当前活动用户进行个性化推荐。自动化的协同过滤推荐系统不需用户指 定相似用户,不需要用户之间相互了解,也不需要分析系统项目的内容,它能够自动寻 找兴趣相似的用户,发现用户的潜在兴趣,具有较高的个性化和自动化程度,也正因为 此,协同过滤算法受到了广泛关注。但随着用户数的增长以及网站规模的扩大,协同过 滤算法出现了许多问题和挑战,诸如稀疏性问题,扩展性问题,冷启动问题等,后期的 诸多研究也都是围绕如何解决这些问题展开。 面对稀疏性问题,Sarwar 等人提出了基于项目的协同过滤算法,引入了项目间的相 似度和矩阵降维技术,他们指出项目间的相似性要比用户间的相似性面临更低的稀疏性 问题,而且更加稳定,项目间相似性的计算可以离线进行,可以提高系统的可扩展性[6]。 有研究者提出了填充的方式,例如使用固定值填充(一般使用项目平均分或用户平均分)、 贝叶斯分类预测填充等等。但该方法最明显的的缺点是在一定程度上抹煞了用户的兴趣 和特征,尤其是在大规模的填充后,更是如此[7]。也有学者提出了引入平滑聚类的方法, 使用用户-项目评分矩阵对用户进行聚类,然后,在同类用户中寻找兴趣相似用户,最后 给出推荐[8]。但是用户兴趣多样,类别间存在交叉,因此,聚类标准难以确定,最终致使 个性化推荐精度较低。 针对可扩展性问题,学者们提出了基于模型的协同过滤算法,其基本思想是在离线 状态下建立用户的兴趣模型,在线时使用建好的兴趣模型进行预测推荐,以此做到在线 时快速响应的效果,建模中主要使用的算法有贝叶斯网络技术[9],潜在语义技术[10]等。该 类方法稳定性较好,实时性较高,可以在一定程度上解决可扩展性问题,但建模花费代 价高,一般比较适合于用户兴趣与特征比较稳定的环境,不适用于数据频繁更新的系统, 而且它还面临推荐精度较低等问题。 面对协同过滤的冷启动、数据稀疏性、推荐准确性等问题,学者提出了基于内容的 推荐方法。 基于内容的推荐方法起源于信息检索和信息过滤的研究,是协同过滤推荐的延伸与 发展。该方法对推荐对象进行内容上的挖掘与分析,基于用户历史行为获得用户的兴趣, 并向用户推荐在内容上与其兴趣最匹配的物品[11]。该方法的核心在于对推荐对象内容特 征的挖掘,并进行基于内容特征和用户行为的兴趣模型的构建。
随着文本信息挖掘技术的日益成熟,目前的研究中以推荐对象为文本的描述为主, 基于给定的特定词组的集合,如关键词、属性词或者不限定特定词等,通过统计的方法 进行基于文本特征向量的建模。将文本模型与用户兴趣模型进行相似度计算,判断该推 荐对象是否符合用户的兴趣。 基于内容的推荐不依赖其它用户的数据,能够准确地捕捉用户的兴趣,推荐效果较 精确,能够推荐新出现的推荐对象和非热门对象,解决协同过滤推荐的冷启动和稀疏性 问题。随着文本处理技术和信息检索技术的成熟,基于内容推荐方法对于文本类内容的 推荐已具有相当的优势。但是其应用也存在着一定的局限性:对于无法通过机器学习规 则或难于提取内容特征的内容无法进行有效推荐,如多媒体数据(视频、音频等);无法挖 掘用户对推荐对象的真实态度,即默认用户的购买和阅览等行为均为正面行为;过度特 性化的推荐过程导致用户没有过行为的相关内容永远不会被推荐,推荐新颖性不足,使 得用户失去发现不同类型信息的机会。 随着各种推荐方法的发展,近年来有很多研究围绕着多种推荐方法的混合应用展开。 混合推荐的主要目的是结合各个方法的优点,取长补短。按照在各个混合推荐系统中进 行混合的时间点,可以将其分为以下两种: 前期混合:直接混合几种推荐方法,属于方法层次上的混合。混合的策略可以分为 互补混合、包含混合、分层混合。互补混合即通过某一算法获得另一算法所需的参数或 初始点等,如通过马尔科夫蒙特卡洛方法得到贝叶斯混合效果回归模型的参数[12]。包含 混合是指在某种推荐算法的框架内,混合另外一种算法。如为了克服协同过滤的稀疏性, 通过基于内容推荐的特征提取方法,充实用户的兴趣模型,用于计算用户的相似性[13]。 分层混合是指将多个推荐算法按照处理流程的先后顺序,将一个推荐机制的结果作为另 一个的输入,得到更准确的推荐结果。 后期混合:这种方法是指在不同的推荐方法产生推荐结果之后,将多个推荐引擎获 得的结果混合,并通过一定的推荐策略或权重比重,向用户提供综合的推荐结果,以提 高推荐的准确性和多样性,满足用户需求。这种基于推荐结果的混合方式,通常的方法 有:对结果的线性加权组合、投票选择、分区组合等。 虽然在理论研究方面主要承袭国外的一些理念,但国内也有了不小建设性的进步与 发展,文献[14]从影响集的概念中得到启发,提出了基于影响集的协同过滤推荐算法,利 用当前活动用户的影响集来提高评分密度,从而缓解稀疏性问题;文献[15]主要从用户及
项目本身的属性考虑,认为不同的用户,具有不同的兴趣与需求,他们总是在某个方面 或者某几个方面的兴趣或需求相似,于是提出了一种基于概念格的用户兴趣预测算法, 作者充分分析了文档独立性,有效地识别和划分用户偏好,符合用户之间仅仅在某一兴 趣上相似、而并非所有兴趣都相似这一特点,该方法有效的缓解了协同过滤算法中的稀 疏性问题以及冷启动问题。 2.2 个性化新闻推荐研究现状 个性化新闻推荐领域,面对海量的新闻内容,如何发现新闻内容与用户之间的相关 性,找到与用户兴趣爱好相似的新闻内容是个性化推荐新闻系统的关键。推荐系统通过 分析用户行为,如用户浏览、用户评论和用户分享,可以发现用户的兴趣喜好,给不同 用户提供不同的个性化页面展示,来提高网站的点击率和转化率。 早期的新闻推荐系统可以为用户提供一定程度的内容定制,却不能随着用户的使用 来动态调整推荐的新闻[16]、之后的新闻推荐系统如 Digg、Google News 都应用了协同过 滤的推荐思想[17][18],用大量兴趣相投、拥有共同经验的用户群之间的喜好的相似性,来 向用户推荐感兴趣的新闻。但基于协同过滤的新闻推荐系统仍然存在一些缺陷,如系统 没有对新闻内容进行挖掘致使用户兴趣表达不准确完整的问题;由于用户和新闻量的激 增导致的系统实时处理能力问题;缺少历史数据而导致的新加入新闻无法被推荐的冷启 动问题等[19]。 基于内容的推荐方法已通过多种形式应用于新闻文章的个性化推荐系统中。在基于 内容的新闻推荐系统中,计算各个新闻与用户兴趣间的相似度时通常需要考虑新闻内容, 当给出一系列最近发布的新闻文章,并给出用户的阅读历史时,基于内容的推荐系统将 循序地找到内容与用户阅读兴趣匹配的新闻。新闻内容通常由向量空间模型表示,或通 过由语言模型获得的主题分布表示,并基于此对用户兴趣进行建模。 传统的用户兴趣模型通常将用户兴趣抽象为关键词、命名实体序列、主题向量、语 义网络、本体论等方式[20]。Amalthaea[21]从用户阅读过的新闻中抽取关键词,将用户兴趣 表示为一组词语序列;文献[22]提出了一种 WEB 用户的兴趣模型,基于用户的导航信息和 WEB 内容分析,运用关键词抽象表达用户喜好。Liang,T.在关键词表示用户兴趣的基础 上,提出了一个基于关键词的语义扩展模型[23],挖掘用户的潜在兴趣。文献[24]、[25]分别应 用语义网络和主题图的方法对用户兴趣进行分析和建模,将用户兴趣与其他用户及内容 主题相关联。OBIWAN[26]使用用户浏览页面的主题本体来描述用户访问过的网页内容。
这些本体通常采用层次概念树的形式,树的每个节点表示了用户的一个兴趣类。文献[27] 将新闻以二叉树的模型聚类,并结合新闻聚类构建树形的用户模型,通过用户与新闻的 树形路径进行推荐。文献[28]采用用户兴趣和场景兴趣来描述用户关注度,通过用户对内 容的关注程度进行新闻推荐。文献[29]利用社会化网络推特中的信息来提取用户的兴趣模 型。 基于内容的推荐系统的代表例子包括 News Dude[30],利用 TF-IDF 结合 K 最近邻居算 法将新闻聚类,根据用户行为进行新闻推荐。YourNews 系统通过赋予用户改编其个人文 件信息来增加新闻推荐的透明度[31]。Guo 提出基于标签概率生成模型的推荐系统[32],在 系统中引入了修正的 LDA (Latent Dirichlet Allocation)模型,并通过修正的 LDA 模型将标 签和用户聚集成簇,以形成用户及群体兴趣信息,进而通过兴趣信息为用户推荐新闻。 当前的基于内容的推荐方法中,新闻内容和用户的兴趣通常表现为一种预先设置的 类别(体育、政治、娱乐等),或是一组关键词序列或新闻的标签集合,抑或是词语间的关 联图表示。然而在某些场景中,仅仅利用用户兴趣或新闻信息中的关键词不足以准确捕 捉用户的阅读兴趣,这些方法并没有深入的挖掘新闻背后隐含的语义,将新闻的特性与 用户的阅读习惯偏好相结合,使用户的兴趣无法兼顾新闻内容的事件针对性和多主题性, 导致在进行个性化推荐时,用户兴趣的多样性表达不完整。同时当前的用户兴趣模型设 计没有针对用户阅读新闻所处的情境信息以及兴趣迁移,忽略了用户阅读新闻时的特定 场景和习惯,从而影响了推荐内容的准确性。 一些推荐系统釆用混合的推荐方法[32],将协同过滤与基于内容推荐的结果后期混合, 在新闻推荐生成辅以过滤、冗余删除等步骤,将新闻推荐给用户,取得了不错的推荐效 果。 随着文本处理技术和信息检索技术的成熟,相比于协同过滤推荐,基于内容推荐方 法对于文本类内容的推荐已具有相当的优势。然而个性化新闻推荐系统在基于内容的推 荐上仍面临着诸多挑战: 新闻模型和用户兴趣的表达。现有的新闻推荐方法通常基于新闻的关键词等文本特 征或新闻标签[33]对新闻和用户兴趣进行建模,特征比较单一,没有兼顾新闻内容的事件 针对性和多主题性;与此同时用户兴趣没有与用户行为的情境信息相融合,导致在构建 用户兴趣模型和进行个性化推荐时,用户兴趣的表达不准确,多样性不完整。 用户的兴趣很容易受到热门事件及网站新闻内容的影响。因此,即使某个用户对热
门新闻产生了行为,往往不能代表该用户的个性。因为用户可能是在跟风,或者这则新 闻的链接到处都是,这些都会对用户兴趣的挖掘带来影响;用户对内容及主题的兴趣偏 好也并非唯一,且伴随着时间随时可能发生改变,需要考虑用户的长期和短期兴趣。 网站的新闻内容可能比较单一,对用户兴趣模型的建立会产生影响,甚至无法挖掘 出用户的潜在兴趣。例如,某网站的新闻内容在体育方面较多,用户在浏览体育新闻的 同时,偶尔也会关注其他新闻内容。那么,通过用户的历史行为进行用户兴趣建模时, 其偏向体育的权值就会很高,甚至会掩盖用户对其他新闻的潜在兴趣,因此无法很好地 表达用户的兴趣偏好。这样,在向用户推荐新闻时,推荐结果的新颖性会受到影响,因 此系统很可能只会给其推荐有关体育的新闻,却并不知道用户可能还喜欢娱乐等新闻。 另一个问题是新闻推荐生成,新闻的时效性强、更新速度快、生命周期较短,其流 行度和新颖度是随着时间变化的这不同于其他系统的物品推荐(如商品推荐和电影推荐), 因此,基于内容的个性化新闻推荐需要一个完整的、全面的对初始新闻推荐列表的处理 过程,结合用户行为反馈,在冗余重复删除,过滤用户行为数据的基础上,考虑新闻分 类、时间性排序等因素。 参考文献: B. J. Konstan, et al. Item-based Collaborative Sarwar, G Karypis, [1] 孟祥武.移动推荐系统及其应用[J].软件学报,2013,24(1):101-108 [2] 刘金亮.基于主题模型的个性化新闻推荐系统的研究与实现[D].北京邮电大学,2013 [3] 曹一鸣.基于协同过滤的个性化新闻推荐系统的研究与实现[D].北京邮电大学,2013 [4] 李聪.电子商务推荐系统中协同过滤瓶预问题研究[D].合肥工业大学,2009. [5] P. Resnick, N. lakovou, M. Sushak,et al. GroupLens: An Open Architecture for CollaborativeFiltering of Netnews[C]. In: Proceedings of ACM 1994 Computer Supported Cooperative Work,1994: 175-186. [6] Filtering RecommendationAlgorithms[C]. In: Proceedings of the 10th International World Wide Web Conference, 2001:99 285-295. [7] 黎 明 , 徐 德 智 . 一 种 结 合 基 于 项 目 和 用 户 的 个 性 化 推 荐 算 法 [J]. 小 型 微 型 计 算 机 系 统,2011,32(4):611-613. [8]范敏敏.非负矩阵分解与聚类方法在个性化推荐系统中的应用研究[M].华东交通大学,2012. [9]王爱国,李廉,杨静等.一种基于 Bayesian 网络的网页推荐算法[J].山东大学学报(工学版),2011,41(4): 137-142. [10]陈登科,孔繁胜.基于高斯 pLSA 模型与项目的协同过滤混合推荐[J].计算机工程与应用,2010,23(4): 209-211. [11] Billsus,D.,Pazzani, M. 2000. User Modeling for Adaptive News Access. User Modeling and User-Adapted Interaction, vol. 10, nos. 2-3,(Feb. 2000),47-180. [12] Ansari A, Essegaier S, Kohli R. Internet recommendations systems. Journal of Marketing Research, 2000, 37(3):363-375. [13] Melville P, Mooney RJ, Nagarajan R. Content-Boosted collaborative filtering for improved
分享到:
收藏