logo资料库

个性化推荐系统中的用户建模及特征选择.pdf

第1页 / 共4页
第2页 / 共4页
第3页 / 共4页
第4页 / 共4页
资料共4页,全文预览结束
第 下砂 第 期 刃 计 算 机 工 程 年 月 · 人工 , 能及识别技术 · 文 幼号 伽略叫 刁 火卜刁 文臼标识研 中 分类号 个性化 推荐 系统 中的 用 户建模及 特征 选择 林月排 , 汪更生 , 陈弃秋 上海交通大学软件学院 , 数字家电实验室 , 上海 旧 摘 要 提 出 了一种基于 向量 空 间模型 的用户模型表示及其动态学 习算法 , 研究了用户建模 中的特征选择 , 提 出了一种根据词性标注信息 方法相结合的特征选择方法 。 实验结果表明这种动态学 习算法能实时捕捉并记录用户最新的兴趣需求 , 从而准确地推荐 将词频法和 出符合 用户兴趣 的信息 , 同时这种基于词性标注 的组合特征选择 方法 的效果好于单独使用词频法或 关位侧 个性化推荐 用户模 型 特征选择 动态 更新 方法 。 · , , , 一 ’ , , 旧 一 , 一 呱 卜 , 伴 各种信息尤其是互 联 网信息 的指数增长 所导致 的 “ 信息 过载 ” 和 “ 信息迷航 ” 问题 已 日益 制约人 们高效地 使 用各种 信息资源 【 。 个性化推荐技术正 是解决这 一 严峻 问题 的有效 方法 , 它根据 用户 的兴趣 和特点 , 对信息资源进行收集 、 整 理 和分类 , 向用户提供和推荐符合其兴趣偏好或需求的信息 。 用户建模是个性化推荐的基础和核 心 , 用户模型 的质 量 直接 关系到个性化推 荐服 务的质 量 , 只 有系统很好地理解 了 用户的兴 趣需求 , 才可能推荐 出用户满意 的信息 。 为了准 确地描 述用户的兴趣需求 , 就需要从用户感兴趣 的信息 中提 取 用户的兴趣特征 , 并通过建立模型来记录 和管理 。 本文研 究的是文本类型 的信息资源 , 采 用了 一 种基于 向量 空 间模型 的用户模型表示 方法 , 并提 出了一 种 用户模型 的动态学 习算 法 , 同时对 关键词 的特征选择方法进行 了改进 。 用户建棋及其特征选择 用户棋纽 的衰示 个性化推荐系统 中 , 用户模型 用于描述 、 存储和管理 用 户的兴趣需求 。 由于 个性化推荐是 以计算机平 白为依托的 , 因此用户模型 不是对用户兴趣 的一 般性描述 , 而是一 种面 向 算法的 、 具有特 定数据结 构的 、 形式化的描 述 。 用户建模则 是从有关用户兴趣和行为的信息 中归纳 出可计算的用户模型 的过程 。 只 有将 用户兴趣信息从 无 结构 的原 始形式转化为 计算机能够理解的结构化形 式 , 才能对用户兴趣进行分析和 处理 。 用户模型 的表示 决定 了其反 映用户真实信息的能力和可 计算能力 , 同时也在一 定程 度上 限制 了用户建模方法的选择 。 目前常见 的用户模型表示 法有 主题表示法 , 关键词列表表 示法 , 基于 神经 网络的表示法 , 基于 本体论 的表示 一 一 法和基于 向量 空 间模型 的表示 法 。 主题表示 法以用户喜好信 息 的主题来表示 用户模型 , 如用户对 体育和财经 感兴趣 、 则 用户模型表示 为 体育 , 财经 关键词列表表示 法以用户感 兴 趣信息的关键词来表示 用户模型 , 如用户对足球感兴趣 , 则用户兴趣模型表示为 世界杯 , 英超 , 意 甲 , 贝克汉姆 , 罗 纳尔多 基于神经 网络的表示 用 网络稳定后 , 网络连接权重 所特征化的 网络状态来表示 用户模型 基于 本体论的表示法 用一 个本体来表示 用户感兴 趣 的领域 , 如 使 用一 个学术 研究主题本体表示 用户感兴趣 的研究领 域 基 于 向量 空 间模型 的表示 是 目前为止最为流行的表示法 , 它将 用 户 模 型 表 示 成 一 个 维 特 征 向 量 【 , 哟 , , … 系统 , 。 , , 其每一 维分量 由关键 词及 其权重 组成 , 该权重 表 示 用户对某个概念感兴 趣的程 度 。 本文中用户模型采 用基于 向量 空 间模 型 的表示 法 , 并将 兴趣节点 由关键 词及 其权 重 的二 元组表示 改进为三 元组 的表 示 形式 。 如果用户有 个兴 趣节点 , 则用户模型表示 为如下 特征 向量 娇 , 乃 , …, 几 币 , 哟 , , , , 吮 , , , , , 叭 , 。 其中 , 关为用户兴趣 的第 个特征项 , , , , 为用户兴 趣 的第 个特征 节点 ‘ 为关键词 哄 为关键词 ‘ 的权重 , 为关键词权重 ‘的最近一 次更新时间 。 个性化推荐币统 个性化推荐系统 由用户兴趣管理 、 信息资源管理 和匹配 一 , 女 , 硕 士 , 主研方向 个性化信息检索 , 作者钧介 林霜梅 文本分类 汪 更生 , 硕士 陈弈秋 , 副教授 盼藕 日共 · 心 £ 一 一 © 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
引攀 大模块构成 。 用户兴趣管理通 过提取 用户感兴趣 的文 本 中的关键特征来构建 , 并为 匹配 引攀提供描述 用户兴 趣需求的特征 向量 。 信息资源管理 用来组织和管理 当 前可供检索的信息资源 , 并为匹 配 引攀提供当前可 用信息资 源 的描述信息 。 匹 配 引擎则将 用户兴趣需求信息和当前资源 信息进行匹 配 , 按照 信息资源与用户兴趣 符合度大小 的顺序 推荐 出符合 用户兴趣 需求的信息资源 。 推荐系统整 体架构如 图 所示 。 用户信息 — 资源信息 匹匹 配 引攀攀 推荐信息 一卜 圈 个性化推称系挽 体架物 信息资源管理将 当前可 用 的资源组 织成倒排索 引结构存 中 。 如果 当前 的文本信息资源 中包含 个 储在 不 同的词语 , 则文本资源可 以表示为如下结构的向量 说 , , , , , , … , 。 , , 。 ‘ , ‘ , 是资源库 中第 个关键词可索引到 的文档 其 中 , 信息 ‘ 是第 个关键 词 或 是关键词 ‘ 的文档频数 , 即 文本资源 中包含该 关键词 的 文本数量 , 是包含关键词 气 的文档及该关键词在文档 中的权重 列表 。 如果有 篇文本包 含关键词 ‘ , 则 只 可表示 为 ‘ , 即 , , , , 二 , 。 , , 。 其中 , ‘ 是包含关键词 ‘ 的文本名 是该关键词在文本 试 中的权重 。 匹配 引攀通 过用 户兴趣管理模块从 中取 出 兴趣特征 向量 , 同时通过信息资源管理模块从 中取 出文本资源信息 。 匹配 时 , 首先根据 用户兴 趣特征 向量 对文本资源进行初步过滤 , 即挑选 出兴趣 向量 中的特征词能 够索 引到 的文本放入 待匹配列表中 然后计算待匹配列表 中 每篇 文 本和 用户兴趣 向量 的相似度 , 并推荐 出相似度大于设 定 闭值 的文 本作为推 荐结果 。 资源文本 和用户兴趣 向量 之 间的相 似度用它们 的余弦夹角来度量 乳阴 , 口‘ , 。 艺吩 峨 油 丽 褥兀犷了琴命 由于 已经 过滤掉 了不含有用户兴趣 向量 中词语的文本 , 因此文本和用户兴趣 向量 的相似度均是大于 的 , 并且二 者 相 同的词越 多 , 权重越大 , 则相似度越高 。 文本 向量 和用户 兴趣 向量 完全相 同的情祝下相似度为 。 征恤释 文本的向量表示通常存在 维数大 的问题 , 即使去掉低频 词和高报词等停 用词后 , 仍然会有数万维 的特征 留下 。 为了 提高机器学 习的效率和精度 , 有必要降低文本 向量 的维数 。 特 征 选 择 是 文 本 降 维 的 有 效 方 法 , 它 从 特 征 向 量 集 , 二 , ’ , 满足 ’《 , 为原始特征 集 的大小 , ’为选 择后 的特征集 大 小 。 具体做法是构造一 个评估 函数对特征 向量 中的所有特 , … , 中选择一 个真子 集 厂一 二 , , 征逐 一 评分 , 选取分值高于设定阑值的特征 。 常用的评估函 , 信 数有 文档频数 , 词频函数 , 息增益 , 互信息 ’等 。 虽然 等基于信息嫡 的方法的可 以取 得较好 的特征选择效果 , 但是 计算费用高 , 系统开销大 , 使用起来浪费时间和资源 。 因此 实际应用中 , 计算量较小 、 评估效果较好的 方法是非 常可取 的 。 本文就使用了 , 期望 交叉摘 , 的实验 表明 和 和计算量 更小的词频法 目前的特征选择都是将所有词性 的词混合在一 起 , 采 用 同样 的评估函数评分 , 挑 出分值大于设 定闭值 的词作为特征 项 。 这种方法没有考虑到不 同词性 的词语对于表达 文档主题 意 思 的差 别 。 通常文本 中的名词 明显 比其它 的动词 、 形容词 、 副词等更有区分度 , 更能表征 文本的主题意思 , 在特征选择 时应该将名词和其它词性 的词语 区别对待 。 本文提 出了一 种 基于词性标 注将词频法和 相结合的特征选择方法 , 它 根据分词模块提供的词性标注信息 , 对 比较重 要的名词采 用 函数评分 , 对分辨力相对较差的动词 、 形容词等其他 词性 的词采用计算简单的词频函数评分 , 并且 名词 的提取 比 例要高于 其它词性 的词 。 本文中采用的评估 函数为 【 扩 万不不丽 ‘“ ’“ ’‘ ”“ 一 “ 一 ’“ ’ , 】 丁 , , 日玄习而而妥碗 丙不不五而丁 ‘ ” ’”““ ” ’““ 其中 , , 甘 为词 在文档 中的权重 了 , 为词 在文 为训练 文档 的总数 , 为训练 文档 集 中出 档 中的词频 现词 的文档频数 分母为归一 化 因子 。 用户棋型 的构建与更靳 用户建模首先要收集反映用户兴趣需 求 的文本集 , 通 过 学 习算法来得 到用户模型 。 本文 由用户主 动提供其感兴 趣 的 文本来建立最初的用户模型 , 在个性化服 务过程 中 , 通 过用 户对 系统推荐结果的反馈来获取新的文本集 , 动 态学 习算法 通 过对新文本的学 习便可 更新 用户模型 。 兴 趣 文本集 中许 多词语 对表现 兴 趣 主 题没 有直 接 的 益 处 , 用户兴趣特征通常只采用经 过特征选择而提取 出来 的部 分关键词来 表示 。 此外 , 随着学 习的进行 , 用户模型会不 断 增大 , 为 了避免过时的兴趣特征对 匹配 引攀造成干扰 , 减少 存储和计算的开销 , 有必要限制用户概貌文件 的容量 。 本 文 将该容量预定为 , 如果兴趣 节点 个数超 过 了 , 就要按 照 关键词权重 大小淘汰掉超 过容 量 的兴趣特征 。 用户建模学 习算法 的主 要步骤如下 对兴 趣 文本进行分词 , 得到带有词性标 注信息 的词 语 列表 对噪声词语进行初 步过滤 , 即去掉低频词和高频词 等停 用词 基于词性标注信息将 名词使 用 , 非名词 使用词频法进 , 非名词提取 的提取 比例确定 行特征选择 , 并按照 名词提取 闭值 , 进而得到关键 词特征 向量 将特征词 及 其权重 , 以及 该记 录创建 或更新 的时间写 入 用户 概貌文件 。 特征词 的权重 与 更新时间计算如 下 占 一 占 叭 , 其 中 , 为 间 和 是 城 和 ‘ 的更新值 初始时 琳 的值 , 兴趣 节点创建 或修改的系统 时 , ‘ 对应于 ‘ , 是 当前 系统 时间 , 是特征词 在特征 选择时得 到的权 重 , 占 是一 个调整系数 。 式 的意义 是 写 入 一 个兴 一 一 © 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
趣节点时 , 如果用户概貌文件中已存在具有相同关键词 的兴 趣节点 , 则只 需修改原有节点的权重项和时间项 反之 , 则 直接创建一 个新的兴 趣节点记录 。 权重 项修改的原则是 将 原有权重 ‘ 按照原 来的时间 ‘ 与当前系统时间 之 间差 距 的大小来降低一 定 的比例 , 然后与 权重 的速度也就越快 , 占的取值可 以根据具体应用的需要来确定 。 。 调整系数 占 的值越小 , 特征项权 重 随时间降低 , 相加来得到新的 实脸与评侧 实 验 均 采 用 中 科 院 计 算 所 的 汉 语 词 法 分 析 系 统 对文本进行分词处理 和词性 标注 , 评价指标均沿用 和查 数据 挖掘和信息检索领 域广泛 使 用的查准率 全率 。 特征选择翻试 测试数据是从 新闻网上 下载的 篇文本 , 采 用人 工 提 取 的 方 式制 定 了 一 套 标 准 的 关键 词 向量 集 合 , 记 为 , 特 征 选 择 算 法 提 取 出 来 的 词 语 集 合 记 为 仿油 , 甲 口 。 查准率和查全率的计算公 式分别如下 月 犬‘夕“ , ‘ 以犬亡娜 ” 门 旋夕“‘ 实验中 , 将名词和非名词分开来进行特征选择并适 当提高名 词 的提取 比例的方法 , 其查准 、 查全率均高于将所有词性 的 词混合在一 起进行特征选择的方法 , 这表明基于词性标注的 组合特征选择方法能够改善特征选择的效果 。 详细结果如表 。 农 特征 选择 方法 征泊一曲奋准查全率对 比 平均 查 准率 平 均 查 全 率 非名词 非名词 一 ‘名词 《名词 非名词 ‘名词 。 为 , 尽 管名词和非名词均采 用 方法 的组合其查准查全 方法的计算速度比词频法慢 , 实验 中 , 率最高 , 但是 对 同样 的文本进行评分 , 倍 。 本文 中采 用 了既快 速又 拥有较好 的精度 的第 种组合 “ 非名词 的耗 时大约是词频法的 名词 ” 进行特征选择 。 动奋举习效果侧试 为 了测试学 习算法的动态学 习效果 , 从复旦 大学的语料 库中随机 挑选 了艺术 、 计算机 、 经济 、 环境 、 历史 、 政治 、 篇 , 作为测 体育等 个领域的 试数据 , 对 用户兴趣进行累加学 习 , 通过 匹 配 引攀的推荐结 果随用户兴趣学 习的进行而 变化的规律来说 明学 习算法的动 态学 习效 果 。 篇文本 , 每个领域 一 , 然后 同类学 习中 , 每次追加学 习 实验 中 , 首先用经 济类 的前 篇作为兴趣样本 生成 用户 篇经 济类 概貌 的文本 , 再构建 个同类用户概貌 不 同类学 习中 , 先每次追加学 习 件经 济类样本构建 个同类用户概 , 每次追 加学 习 件其它类别的样本再构 貌 。 为保证资源库中的文本与用 建 个用户概貌 户兴趣 的学 习文本不重 复 , 分别从各个类别中取 出后 篇 篇 作为待推 荐文本 , 通过信息资源管理模块来构建 共 。 每次兴趣学 习后 , 都调 用 匹配引攀来对每篇待 为用户模型和资源库中该文本 推 荐文本打分 的相似度 , 然后将 的文本推荐给用 户 。 推荐系统 的查准率和查全率计算如式 、 式 , 实验 超 过阅值 , 该 一 图 中 , 随着 同类文本的累加学 习 , 系统推荐的文本中 经 济领域的文本所 占比例及 其绝对数量均 呈 上 升趋 势 , 这表 明用户概貌文件 中所积累的该领域的概念在不断增多 , 学 习 算法能动态地捕捉 到该领域新 的概念 , 能随着学 习的进行实 时地 更新 用户模型 。 图 中 , 随着不 同类文本的追加学 习 , 查准率和查全率均 呈 下降趋 势 。 这说明 , 如果用户的兴 趣发 生 了转移 系统中体现 在追 加学 习其它类别的文 本 , 原 有类 别的文本在推荐结果中所 占的比例会下降 , 其绝对数量也会 减少 。 这表明学 习算法能够随着用户兴趣的转移合理地 “ 遗忘 ” 掉用户过去的爱好 , 而积累用户新近感兴趣的文本中的概念 。 结束语 本文研究 了个性化推荐系统 中的用户建模及其特征选择 技术 , 针对现有特征选择方法役有考虑到名词 比其它词性 的 词语更有区分度的问题 , 提 出了一 种基于词性标注信息 , 将 名词 和非名词分开 来进行特征选择 的方法 , 有效地提 高 了特 征选择 的精度 。 此外 , 提 出的用户兴 趣建模动态学 习算法 , 能实时 “ 追随 ” 用户兴趣 的变化 , 动态更新 用户模 型 , 从而 为匹配 引攀提供用户最新 的兴趣需求信息 , 使得推荐结果总 能满足 用户当前的兴趣需求 。 今考文嗽 】八扮汉 一 , ’ 下转第 页 一 一 © 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
为选取 了其中一 些具有典型意义 的单词作为公共检索词语 , 见表 。 衰 查勿侧诱分类 查询词语 类型 发音易混淆的词语 专有名词 , , , 川 本文选取 了 位能熟练运 用本系统的人进行 了如下性 能 实验 。 位侧试员任意选取 一 个词语进行音频查询 。 分为 高 , 接下来就会对检索出来 的结果进行局部反馈 , 此时会对 索引产生较大影晌 。 同样 , 本文对于 发音不易混淆的专有名词进行试验 , 专 有名词词组 的第 次局部修正前与第 次局部修正 后的比较 如图 所示 。 传统 的仅局部反馈的检索 引攀 种 查询方式 本系统所 采用的全 局查询扩展检索 引攀 。 对所有相关结果取平均 , 得 到传统的局部反馈与本文提 出的全局反馈 的性能 比较如图 所示 。 实验 中 公 式的参数 , 八 都取 。 从 图 可 以看到 , 纵轴代表 《 经 过本系统 全 局查 询扩展后 , 用户的满意度指标迅速攀升 。 本文还将考察全局查询扩展对于 本系统 的影响 , 特别是 它对于 发音易混淆的词组 和一 些发音不太容易混淆的专有名 词 的影响是否一 致 。 对于所有的待测词语进行初步检索 , 目 的是使全局查询词典事先得到充分的训练 。 同样是 位测试 员 , 从 发音易混淆的词组 中选取 一 个 单词进行查询 。 这里 比较 的是侧试员第 次局部修正 前和第 次局部修正 后 的平均结果 , 如图 所示 。 从 图 中可 以看 出 , 第 次局部修正 后 的吻合率比修正 前的吻合率有 了较大提高 , 这就说明本文的全 局扩展对于发 音不容易混淆的专 有名词并没有太大的效果 , 因为它的发音 在 以前的全 局字典中没有类似发音词语的匹配记录 , 所以侧 试员 的局部修正 动作就会对接下来检索的结果进行的修正 , 这对索引项产生 了较大的影响 。 总结 由于相关反馈技术的实现复杂度较低 , 且效果令人满意 , 因此相关反馈在检索中具有重 要的意义 。 经 实验显示 , 本系 统利用全 局反馈作查询扩展 、 局部反馈做查询修正 , 使得用 户 满意率 与传 统 的仅使 用局部反馈方法相 比有 了 明显 的提 升 , 特别是对于 那些读音非常容易混淆的词语而言 , 全局查 询扩展具有先天 的预 测优势 , 能基 本满足 用户对于那些混淆 词语查询的需求 , 使用户的查询满意率大大提高 。 乡考文嗽 民 , , 一 , , 一物 比 , 一 叭 , 【 【 州 一 笼 代 , 从图 中可以看出 , 第 次局部修正 前后满意率并无明 显 的差别 , 这就说 明本文的全 局扩展查 询是有效的 , 如果全 局扩展没有效果 , 第 次局部修正 时 , 侧试员的满意率就不 峨洲又 上接第 应 晓敏 , 刘 明 , 窦文华 一 种 面 向个性化服务 的无 需反例集 的 页 用户建模方法 , 国防科技大学学报 , , 一 】 一 , 拼 , , , , , , , 口 【 场 认币 七 肥 刀 一 护 © 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
分享到:
收藏