第
下砂
第 期
刃
计 算 机 工 程
年 月
· 人工 , 能及识别技术 ·
文 幼号 伽略叫
刁 火卜刁
文臼标识研
中 分类号
个性化 推荐 系统 中的 用 户建模及 特征 选择
林月排 , 汪更生 , 陈弃秋
上海交通大学软件学院 , 数字家电实验室 , 上海 旧
摘 要 提 出 了一种基于 向量 空 间模型 的用户模型表示及其动态学 习算法 , 研究了用户建模 中的特征选择 , 提 出了一种根据词性标注信息
方法相结合的特征选择方法 。 实验结果表明这种动态学 习算法能实时捕捉并记录用户最新的兴趣需求 , 从而准确地推荐
将词频法和
出符合 用户兴趣 的信息 , 同时这种基于词性标注 的组合特征选择 方法 的效果好于单独使用词频法或
关位侧 个性化推荐 用户模 型 特征选择 动态 更新
方法 。
·
,
,
,
一
’
,
,
旧
一
,
一
呱
卜
,
伴
各种信息尤其是互 联 网信息 的指数增长 所导致 的 “ 信息
过载 ” 和 “ 信息迷航 ” 问题 已 日益 制约人 们高效地 使 用各种
信息资源 【 。 个性化推荐技术正 是解决这 一 严峻 问题 的有效
方法 , 它根据 用户 的兴趣 和特点 , 对信息资源进行收集 、 整
理 和分类 , 向用户提供和推荐符合其兴趣偏好或需求的信息 。
用户建模是个性化推荐的基础和核 心 , 用户模型 的质
量 直接 关系到个性化推 荐服 务的质 量 , 只 有系统很好地理解
了 用户的兴 趣需求 , 才可能推荐 出用户满意 的信息 。 为了准
确地描 述用户的兴趣需求 , 就需要从用户感兴趣 的信息 中提
取 用户的兴趣特征 , 并通过建立模型来记录 和管理 。 本文研
究的是文本类型 的信息资源 , 采 用了 一 种基于 向量 空 间模型
的用户模型表示 方法 , 并提 出了一 种 用户模型 的动态学 习算
法 , 同时对 关键词 的特征选择方法进行 了改进 。
用户建棋及其特征选择
用户棋纽 的衰示
个性化推荐系统 中 , 用户模型 用于描述 、 存储和管理 用
户的兴趣需求 。 由于 个性化推荐是 以计算机平 白为依托的 ,
因此用户模型 不是对用户兴趣 的一 般性描述 , 而是一 种面 向
算法的 、 具有特 定数据结 构的 、 形式化的描 述 。 用户建模则
是从有关用户兴趣和行为的信息 中归纳 出可计算的用户模型
的过程 。 只 有将 用户兴趣信息从 无 结构 的原 始形式转化为
计算机能够理解的结构化形 式 , 才能对用户兴趣进行分析和
处理 。
用户模型 的表示 决定 了其反 映用户真实信息的能力和可
计算能力 , 同时也在一 定程 度上 限制 了用户建模方法的选择 。
目前常见 的用户模型表示 法有 主题表示法 , 关键词列表表
示法 , 基于 神经 网络的表示法 , 基于 本体论
的表示
一 一
法和基于 向量 空 间模型 的表示 法 。 主题表示 法以用户喜好信
息 的主题来表示 用户模型 , 如用户对 体育和财经 感兴趣 、 则
用户模型表示 为 体育 , 财经 关键词列表表示 法以用户感
兴 趣信息的关键词来表示 用户模型 , 如用户对足球感兴趣 ,
则用户兴趣模型表示为 世界杯 , 英超 , 意 甲 , 贝克汉姆 , 罗
纳尔多 基于神经 网络的表示 用 网络稳定后 , 网络连接权重
所特征化的 网络状态来表示 用户模型 基于 本体论的表示法
用一 个本体来表示 用户感兴 趣 的领域 , 如
使 用一 个学术 研究主题本体表示 用户感兴趣 的研究领 域 基
于 向量 空 间模型 的表示 是 目前为止最为流行的表示法 , 它将
用 户 模 型 表 示 成 一 个 维 特 征 向 量 【 , 哟 ,
, …
系统
,
。 ,
, 其每一 维分量 由关键 词及 其权重 组成 , 该权重 表
示 用户对某个概念感兴 趣的程 度 。
本文中用户模型采 用基于 向量 空 间模 型 的表示 法 , 并将
兴趣节点 由关键 词及 其权 重 的二 元组表示 改进为三 元组 的表
示 形式 。 如果用户有 个兴 趣节点 , 则用户模型表示 为如下
特征 向量
娇 , 乃 , …, 几 币 , 哟 ,
,
, ,
吮 ,
,
,
,
, 叭 ,
。
其中 , 关为用户兴趣 的第 个特征项
,
,
,
, 为用户兴
趣 的第 个特征 节点 ‘ 为关键词 哄 为关键词 ‘ 的权重
, 为关键词权重 ‘的最近一 次更新时间 。
个性化推荐币统
个性化推荐系统 由用户兴趣管理 、 信息资源管理 和匹配
一 , 女 , 硕 士 , 主研方向 个性化信息检索 ,
作者钧介 林霜梅
文本分类 汪 更生 , 硕士 陈弈秋 , 副教授
盼藕 日共
· 心
£
一
一
© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
引攀 大模块构成 。 用户兴趣管理通 过提取 用户感兴趣 的文
本 中的关键特征来构建
, 并为 匹配 引攀提供描述
用户兴 趣需求的特征 向量 。 信息资源管理 用来组织和管理 当
前可供检索的信息资源 , 并为匹 配 引攀提供当前可 用信息资
源 的描述信息 。 匹 配 引擎则将 用户兴趣需求信息和当前资源
信息进行匹 配 , 按照 信息资源与用户兴趣 符合度大小 的顺序
推荐 出符合 用户兴趣 需求的信息资源 。 推荐系统整 体架构如
图 所示 。
用户信息
— 资源信息
匹匹 配 引攀攀
推荐信息 一卜
圈 个性化推称系挽 体架物
信息资源管理将 当前可 用 的资源组 织成倒排索 引结构存
中 。 如果 当前 的文本信息资源 中包含 个
储在
不 同的词语 , 则文本资源可 以表示为如下结构的向量
说 ,
,
,
,
,
, … ,
。 ,
,
。
‘ ,
‘ ,
是资源库 中第 个关键词可索引到 的文档
其 中 ,
信息 ‘ 是第 个关键 词 或 是关键词 ‘ 的文档频数 , 即
文本资源 中包含该 关键词 的 文本数量
, 是包含关键词 气
的文档及该关键词在文档 中的权重 列表 。 如果有 篇文本包
含关键词 ‘ , 则 只 可表示 为
‘ , 即
,
,
,
, 二 ,
。 ,
, 。
其中 ,
‘ 是包含关键词 ‘ 的文本名
是该关键词在文本
试 中的权重 。
匹配 引攀通 过用 户兴趣管理模块从
中取 出
兴趣特征 向量 , 同时通过信息资源管理模块从
中取 出文本资源信息 。 匹配 时 , 首先根据 用户兴 趣特征 向量
对文本资源进行初步过滤 , 即挑选 出兴趣 向量 中的特征词能
够索 引到 的文本放入 待匹配列表中 然后计算待匹配列表 中
每篇 文 本和 用户兴趣 向量 的相似度 , 并推荐 出相似度大于设
定 闭值 的文 本作为推 荐结果 。 资源文本 和用户兴趣 向量
之 间的相 似度用它们 的余弦夹角来度量
乳阴 ,
口‘
,
。
艺吩 峨 油
丽 褥兀犷了琴命
由于 已经 过滤掉 了不含有用户兴趣 向量 中词语的文本 ,
因此文本和用户兴趣 向量 的相似度均是大于 的 , 并且二 者
相 同的词越 多 , 权重越大 , 则相似度越高 。 文本 向量 和用户
兴趣 向量 完全相 同的情祝下相似度为 。
征恤释
文本的向量表示通常存在 维数大 的问题 , 即使去掉低频
词和高报词等停 用词后 , 仍然会有数万维 的特征 留下 。 为了
提高机器学 习的效率和精度 , 有必要降低文本 向量 的维数 。
特 征 选 择 是 文 本 降 维 的 有 效 方 法 , 它 从 特 征 向 量 集
, 二 , ’ , 满足
’《 , 为原始特征 集 的大小 , ’为选 择后 的特征集 大
小 。 具体做法是构造一 个评估 函数对特征 向量 中的所有特
, … , 中选择一 个真子 集 厂一
二
,
,
征逐 一 评分 , 选取分值高于设定阑值的特征 。 常用的评估函
, 信
数有 文档频数 , 词频函数 ,
息增益 , 互信息 ’等 。 虽然
等基于信息嫡 的方法的可 以取 得较好 的特征选择效果 , 但是
计算费用高 , 系统开销大 , 使用起来浪费时间和资源 。 因此
实际应用中 , 计算量较小 、 评估效果较好的
方法是非
常可取 的 。 本文就使用了
, 期望 交叉摘 ,
的实验 表明 和
和计算量 更小的词频法
目前的特征选择都是将所有词性 的词混合在一 起 , 采 用
同样 的评估函数评分 , 挑 出分值大于设 定闭值 的词作为特征
项 。 这种方法没有考虑到不 同词性 的词语对于表达 文档主题
意 思 的差 别 。 通常文本 中的名词 明显 比其它 的动词 、 形容词 、
副词等更有区分度 , 更能表征 文本的主题意思 , 在特征选择
时应该将名词和其它词性 的词语 区别对待 。 本文提 出了一 种
基于词性标 注将词频法和
相结合的特征选择方法 , 它
根据分词模块提供的词性标注信息 , 对 比较重 要的名词采 用
函数评分 , 对分辨力相对较差的动词 、 形容词等其他
词性 的词采用计算简单的词频函数评分 , 并且 名词 的提取 比
例要高于 其它词性 的词 。 本文中采用的评估 函数为
【 扩
万不不丽 ‘“ ’“ ’‘ ”“ 一 “ 一
’“ ’
,
】 丁 ,
,
日玄习而而妥碗 丙不不五而丁 ‘ ” ’”““ ” ’““
其中 ,
, 甘 为词 在文档 中的权重 了 , 为词 在文
为训练 文档 的总数 , 为训练 文档 集 中出
档 中的词频
现词 的文档频数 分母为归一 化 因子 。
用户棋型 的构建与更靳
用户建模首先要收集反映用户兴趣需 求 的文本集 , 通 过
学 习算法来得 到用户模型 。 本文 由用户主 动提供其感兴 趣 的
文本来建立最初的用户模型 , 在个性化服 务过程 中 , 通 过用
户对 系统推荐结果的反馈来获取新的文本集 , 动 态学 习算法
通 过对新文本的学 习便可 更新 用户模型 。
兴 趣 文本集 中许 多词语 对表现 兴 趣 主 题没 有直 接 的 益
处 , 用户兴趣特征通常只采用经 过特征选择而提取 出来 的部
分关键词来 表示 。 此外 , 随着学 习的进行 , 用户模型会不 断
增大 , 为 了避免过时的兴趣特征对 匹配 引攀造成干扰 , 减少
存储和计算的开销 , 有必要限制用户概貌文件 的容量 。 本 文
将该容量预定为 , 如果兴趣 节点 个数超 过 了 , 就要按 照
关键词权重 大小淘汰掉超 过容 量 的兴趣特征 。
用户建模学 习算法 的主 要步骤如下
对兴 趣 文本进行分词 , 得到带有词性标 注信息 的词 语 列表
对噪声词语进行初 步过滤 , 即去掉低频词和高频词 等停 用词
基于词性标注信息将 名词使 用
, 非名词 使用词频法进
, 非名词提取 的提取 比例确定
行特征选择 , 并按照 名词提取
闭值 , 进而得到关键 词特征 向量
将特征词 及 其权重 , 以及 该记 录创建 或更新 的时间写 入 用户
概貌文件 。 特征词 的权重 与 更新时间计算如 下
占
一
占
叭
,
其 中 ,
为
间
和 是 城 和 ‘ 的更新值 初始时 琳 的值
, 兴趣 节点创建 或修改的系统 时
,
‘ 对应于 ‘ ,
是 当前 系统 时间
, 是特征词 在特征 选择时得
到的权 重 , 占 是一 个调整系数 。 式 的意义 是 写 入 一 个兴
一 一
© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
趣节点时 , 如果用户概貌文件中已存在具有相同关键词 的兴
趣节点 , 则只 需修改原有节点的权重项和时间项 反之 , 则
直接创建一 个新的兴 趣节点记录 。 权重 项修改的原则是 将
原有权重 ‘ 按照原 来的时间 ‘ 与当前系统时间 之 间差
距 的大小来降低一 定 的比例 , 然后与
权重
的速度也就越快 , 占的取值可 以根据具体应用的需要来确定 。
。 调整系数 占 的值越小 , 特征项权 重 随时间降低
, 相加来得到新的
实脸与评侧
实 验 均 采 用 中 科 院 计 算 所 的 汉 语 词 法 分 析 系 统
对文本进行分词处理 和词性 标注 , 评价指标均沿用
和查
数据 挖掘和信息检索领 域广泛 使 用的查准率
全率
。
特征选择翻试
测试数据是从
新闻网上 下载的 篇文本 , 采 用人
工 提 取 的 方 式制 定 了 一 套 标 准 的 关键 词 向量 集 合 , 记 为
, 特 征 选 择 算 法 提 取 出 来 的 词 语 集 合 记 为
仿油 , 甲 口
。 查准率和查全率的计算公 式分别如下
月 犬‘夕“
,
‘
以犬亡娜 ” 门
旋夕“‘
实验中 , 将名词和非名词分开来进行特征选择并适 当提高名
词 的提取 比例的方法 , 其查准 、 查全率均高于将所有词性 的
词混合在一 起进行特征选择的方法 , 这表明基于词性标注的
组合特征选择方法能够改善特征选择的效果 。 详细结果如表 。
农
特征 选择 方法
征泊一曲奋准查全率对 比
平均 查 准率 平 均 查 全 率
非名词
非名词
一 ‘名词
《名词
非名词
‘名词
。
为
,
尽 管名词和非名词均采 用
方法 的组合其查准查全
方法的计算速度比词频法慢 , 实验 中 ,
率最高 , 但是
对 同样 的文本进行评分 ,
倍 。 本文 中采 用 了既快 速又 拥有较好 的精度 的第 种组合
“ 非名词
的耗 时大约是词频法的
名词 ” 进行特征选择 。
动奋举习效果侧试
为 了测试学 习算法的动态学 习效果 , 从复旦 大学的语料
库中随机 挑选 了艺术 、 计算机 、 经济 、 环境 、 历史 、 政治 、
篇 , 作为测
体育等 个领域的
试数据 , 对 用户兴趣进行累加学 习 , 通过 匹 配 引攀的推荐结
果随用户兴趣学 习的进行而 变化的规律来说 明学 习算法的动
态学 习效 果 。
篇文本 , 每个领域
一
, 然后 同类学 习中 , 每次追加学 习
实验 中 , 首先用经 济类 的前 篇作为兴趣样本 生成 用户
篇经 济类
概貌
的文本 , 再构建 个同类用户概貌
不 同类学
习中 , 先每次追加学 习 件经 济类样本构建 个同类用户概
, 每次追 加学 习 件其它类别的样本再构
貌
。 为保证资源库中的文本与用
建 个用户概貌
户兴趣 的学 习文本不重 复 , 分别从各个类别中取 出后
篇
篇 作为待推 荐文本 , 通过信息资源管理模块来构建
共
。 每次兴趣学 习后 , 都调 用 匹配引攀来对每篇待
为用户模型和资源库中该文本
推 荐文本打分
的相似度 , 然后将
的文本推荐给用
户 。 推荐系统 的查准率和查全率计算如式 、 式 , 实验
超 过阅值
, 该
一
图 中 , 随着 同类文本的累加学 习 , 系统推荐的文本中
经 济领域的文本所 占比例及 其绝对数量均 呈 上 升趋 势 , 这表
明用户概貌文件 中所积累的该领域的概念在不断增多 , 学 习
算法能动态地捕捉 到该领域新 的概念 , 能随着学 习的进行实
时地 更新 用户模型 。 图 中 , 随着不 同类文本的追加学 习 ,
查准率和查全率均 呈 下降趋 势 。 这说明 , 如果用户的兴 趣发
生 了转移 系统中体现 在追 加学 习其它类别的文 本 , 原 有类
别的文本在推荐结果中所 占的比例会下降 , 其绝对数量也会
减少 。 这表明学 习算法能够随着用户兴趣的转移合理地 “ 遗忘 ”
掉用户过去的爱好 , 而积累用户新近感兴趣的文本中的概念 。
结束语
本文研究 了个性化推荐系统 中的用户建模及其特征选择
技术 , 针对现有特征选择方法役有考虑到名词 比其它词性 的
词语更有区分度的问题 , 提 出了一 种基于词性标注信息 , 将
名词 和非名词分开 来进行特征选择 的方法 , 有效地提 高 了特
征选择 的精度 。 此外 , 提 出的用户兴 趣建模动态学 习算法 ,
能实时 “ 追随 ” 用户兴趣 的变化 , 动态更新 用户模 型 , 从而
为匹配 引攀提供用户最新 的兴趣需求信息 , 使得推荐结果总
能满足 用户当前的兴趣需求 。
今考文嗽
】八扮汉
一
,
’
下转第
页
一 一
© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
为选取 了其中一 些具有典型意义 的单词作为公共检索词语 ,
见表 。
衰 查勿侧诱分类
查询词语
类型
发音易混淆的词语
专有名词
,
,
, 川
本文选取 了
位能熟练运 用本系统的人进行 了如下性
能 实验 。
位侧试员任意选取 一 个词语进行音频查询 。 分为
高 , 接下来就会对检索出来 的结果进行局部反馈 , 此时会对
索引产生较大影晌 。
同样 , 本文对于 发音不易混淆的专有名词进行试验 , 专
有名词词组 的第 次局部修正前与第 次局部修正 后的比较
如图 所示 。
传统 的仅局部反馈的检索 引攀
种 查询方式
本系统所
采用的全 局查询扩展检索 引攀 。 对所有相关结果取平均 , 得
到传统的局部反馈与本文提 出的全局反馈 的性能 比较如图
所示 。 实验 中
公 式的参数 , 八 都取 。
从 图 可 以看到 , 纵轴代表
《 经 过本系统 全 局查
询扩展后 , 用户的满意度指标迅速攀升 。
本文还将考察全局查询扩展对于 本系统 的影响 , 特别是
它对于 发音易混淆的词组 和一 些发音不太容易混淆的专有名
词 的影响是否一 致 。 对于所有的待测词语进行初步检索 , 目
的是使全局查询词典事先得到充分的训练 。
同样是
位测试 员 , 从 发音易混淆的词组 中选取 一 个
单词进行查询 。 这里 比较 的是侧试员第 次局部修正 前和第
次局部修正 后 的平均结果 , 如图 所示 。
从 图 中可 以看 出 , 第 次局部修正 后 的吻合率比修正
前的吻合率有 了较大提高 , 这就说明本文的全 局扩展对于发
音不容易混淆的专 有名词并没有太大的效果 , 因为它的发音
在 以前的全 局字典中没有类似发音词语的匹配记录 , 所以侧
试员 的局部修正 动作就会对接下来检索的结果进行的修正 ,
这对索引项产生 了较大的影响 。
总结
由于相关反馈技术的实现复杂度较低 , 且效果令人满意 ,
因此相关反馈在检索中具有重 要的意义 。 经 实验显示 , 本系
统利用全 局反馈作查询扩展 、 局部反馈做查询修正 , 使得用
户 满意率 与传 统 的仅使 用局部反馈方法相 比有 了 明显 的提
升 , 特别是对于 那些读音非常容易混淆的词语而言 , 全局查
询扩展具有先天 的预 测优势 , 能基 本满足 用户对于那些混淆
词语查询的需求 , 使用户的查询满意率大大提高 。
乡考文嗽
民
,
,
一
,
,
一物 比
,
一
叭
,
【
【
州
一
笼
代
,
从图 中可以看出 , 第 次局部修正 前后满意率并无明
显 的差别 , 这就说 明本文的全 局扩展查 询是有效的 , 如果全
局扩展没有效果 , 第 次局部修正 时 , 侧试员的满意率就不
峨洲又
上接第
应 晓敏 , 刘 明 , 窦文华 一 种 面 向个性化服务 的无 需反例集 的
页
用户建模方法 , 国防科技大学学报 ,
,
一
】
一
,
拼 ,
,
,
,
,
,
,
口
【
场
认币
七
肥
刀
一
护
© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net