logo资料库

现代信息检索课件~王斌老师的.pdf

第1页 / 共985页
第2页 / 共985页
第3页 / 共985页
第4页 / 共985页
第5页 / 共985页
第6页 / 共985页
第7页 / 共985页
第8页 / 共985页
资料共985页,剩余部分请下载后查看
现代信息检索 Modern Information Retrieval
提纲
提纲
搜索引擎
更多的搜索引擎
幻灯片编号 6
信息检索技术的应用
信息检索
从信息规模上分类
提纲
市场发展的需求
几个应用需求
对相关专业研究生的基本要求
幻灯片编号 14
幻灯片编号 15
幻灯片编号 16
幻灯片编号 17
幻灯片编号 18
提纲
课程的宗旨
老师介绍(1)
老师介绍(2)
本课程的特点
授课内容简介
授课方案
考核方式
2006年选课情况分析
2006年考试结果分析
2007年选课情况分析
2007考试结果分析
国际著名研究机构和代表人物
国际著名研究机构和代表人物
幻灯片编号 33
幻灯片编号 34
国际著名研究机构和代表人物
一些活跃的华裔学者
一些活跃的华裔学者
国内一些相关研究机构
重要会议
ACM SIGIR
IR相关研究领域及会议
重要期刊
重要工具
课程网站和邮件列表
参考书籍及文献
Manning的书介绍
对不同专业学生的期望
The end
现代信息检索 Modern Information Retrieval
课前思考题
提纲
提纲
信息角色的历史变迁
信息过载(Information overload)
Internet增长(1)
Internet增长(2)
全球数字化进程加快
问题!
幻灯片编号 11
信息检索(Information Retrieval) (1)
信息检索(2)
信息检索(3)
信息检索(4)
信息检索的基本概念(1)
信息检索的基本概念(2)
信息检索的基本概念(3)
信息检索的基本概念(3)
信息检索的基本概念(4)
信息检索的基本概念(5)
信息检索和数据库检索
信息检索
提纲
历史分段
IR历史(1)
IR历史(2)
IR历史(3)
IR 历史(4)
IR 历史(5)
IR历史(6)
IR历史(7)
提纲
相关研究领域
图书情报学(Library and Information Science, LIS)
数据库管理系统(Database Management, DM)
人工智能(Artificial Intelligence,AI)
自然语言理解(Natural Language Processing,NLP)
NLP和IR融合的其他方面
机器学习(Machine Learning,ML)
ML和IR融合的方面
提纲
IR系统示意图
IR系统的组成框架
IR系统的组成部分(1)
IR系统的组成部分(2)
IR系统的组成部分(3)
本章小结
课后思考题
The end
现代信息检索 Modern Information Retrieval
课前思考题
提纲
提纲
关于评价
从竞技体育谈起
为什么要评估IR?
IR中评价什么?
如何评价效果?
评价任务的例子
评价指标分类
评价指标分类
回到例子
整个文档集合的划分
评价指标
四种关系的矩阵表示
基于集合的图表示
回到例子
课堂提问:另一个计算例子
正确率和召回率的应用领域
关于正确率和召回率的讨论(1)
关于正确率和召回率的讨论(2)
课堂提问:
回到例子
正确率和召回率的问题
如何在大规模数据情况下计算召回率
关于召回率的计算
4个系统的Pooling
基于集合的图表示
课堂提问
P和R融合
引入序的作用(1)
引入序的作用(2)
P-R曲线的例子
P-R曲线
P-R 曲线的插值问题
P-R曲线图
P-R的优缺点
基于P-R曲线的单一指标
P-R曲线中的break point
引入序的作用(3)
不考虑召回率
回到例子
评价指标分类
评价指标(9)
回到例子
课堂提问:
整个IR系统的P-R曲线
几个IR系统的P-R曲线比较
面向用户的评价指标
其他评价指标
其他评价指标
近几年出现的新的评价指标
Bpref
原始定义
特定情况
最新定义
GMAP
GMAP
NDCG
NDCG
NDCG
NDCG
NDCG
NDCG
关于评价方面的研究
提纲
TREC 概况
TREC的目标(1)
TREC的目标(2)
TREC的运行方式(1)
TREC的运行方式(2)
TREC的运行方式(3)
TREC的运行方式(4)
测试数据和测试软件
TREC任务情况
历届TREC参加单位数示意图
参加过TREC的部分单位
TREC中名词定义
Topic的一般结构
Topic示例
使用Topic的方式
评测方法
相关性评估过程(1)
相关性评估过程(2)
其他评测会议
TRECVID (TREC VIDeo)
MUC (Message Understanding Conference)
ACE(Automatic Content Extraction)
DUC(Document Understanding Conference)
其他评测
本章小结
课后练习题
课后练习题(续)
关于课后练习
The end
现代信息检索 Modern Information Retrieval
提纲
信息检索模型
相关概念
信息检索模型分类
信息检索模型分类
集合(直观描述)
集合的并运算和交运算
集合的差运算和余(补)运算
布尔代数
布尔模型
布尔模型匹配的集合表示
布尔模型(续)
课堂思考题
我的解答
Google检索结果
布尔模型的优缺点
信息检索模型分类
向量
向量的模、距离和夹角
向量空间模型
文档-标引项矩阵(Doc-Term Matrix)
一个例子
一个例子(续)
VSM中三个关键问题
Term的选择
权重计算
权重计算(续)
权重计算(续)
权重计算(续)
权重计算模式--TF
权重计算模式--IDF
权重计算模式--Length
权重计算模式
相似度计算
VSM的发展
VSM的优缺点
课堂思考题
我的解答
课后练习(暂停)
信息检索模型分类
布尔模型回顾
普通集合
模糊集合
模糊集隶属函数的性质
基于模糊集的IR模型
基于模糊集的IR模型(续)
基于模糊集的IR模型(续)
基于模糊集的IR模型的优缺点
信息检索模型分类
扩展布尔模型
扩展布尔模型(续)
扩展布尔模型(续)
扩展布尔模型(续)
扩展布尔模型(续)
扩展布尔模型(续)
扩展布尔模型的优缺点
信息检索模型分类
向量空间模型回顾
文档-标引项矩阵(Doc-Term Matrix)
隐性语义索引(LSI)
奇异值分解(Singular Value Decomposition,SVD)
去掉噪音
新矩阵A’
新空间下的表示
SVD更新策略
SVD更新策略
K值的选取
一个例子
结果
有关LSI的实验结论
信息检索模型分类
概率统计初步
随机试验和随机事件
概率和条件概率
乘法公式、全概率公式和贝叶斯公式
事件的独立性
随机变量
概率检索模型
信息检索模型分类
回归(Regression)
Logistic 回归
Logistic 回归IR模型
特征函数fi的选择
Logistic 回归IR模型(续)
信息检索模型分类
二值独立概率模型BIM
BIM模型(续)
BIM模型(续)
BIM模型(续)
一个例子
BIM模型(续)
pi qi参数的计算
pi qi参数的计算(续)
pi qi参数的计算(续)
pi qi参数的计算(续)
BIM模型小结
BIM模型的优缺点
BIM的发展
BIM模型和VSM的比较
课后练习(暂停)
信息检索模型分类
统计语言建模IR模型(SLMIR)
统计语言模型(Statistical Language Modeling)
SLM的一个例子
SLM的一个例子(续)
基于查询似然的信息检索模型
语言模型下的文本生成
一元语言模型的参数估计
语言模型用于检索
基于似然的排序(d是MD的参数)
基于查询似然的信息检索模型的理解
类比:一个例子
类比:一个例子(续)
类比:一个例子-回到IR
抛骰子:多项(Multinomial)随机试验
查询似然检索模型的形式化(1):一些标记
形式化 (2)
形式化 (3)
语言模型的估计和数据平滑
最大似然估计(MLE)和零概率问题
一个简单的例子
数据平滑的一般形式
求解过程
文档排名函数的转换
几种SLMIR中常用的平滑方法
Shannon信道模型
翻译模型
KL距离(相对熵)模型
统计语言建模IR模型优缺点
课后练习(暂停)
本章小结
The end.
现代信息检索 Modern Information Retrieval
提纲
信息检索模型
相关概念
信息检索模型分类
信息检索模型分类
集合(直观描述)
集合的并运算和交运算
集合的差运算和余(补)运算
布尔代数
布尔模型
布尔模型匹配的集合表示
布尔模型(续)
课堂思考题
我的解答
Google检索结果
布尔模型的优缺点
信息检索模型分类
向量
向量的模、距离和夹角
向量空间模型
文档-标引项矩阵(Doc-Term Matrix)
一个例子
一个例子(续)
VSM中三个关键问题
term的选择
权重计算
权重计算(续)
权重计算(续)
权重计算(续)
权重计算模式--TF
权重计算模式--IDF
权重计算模式--Length
权重计算模式
相似度计算
VSM的发展
VSM的优缺点
课堂思考题
我的解答
课后练习(暂停)
信息检索模型分类
布尔模型回顾
普通集合
模糊集合
模糊集隶属函数的性质
基于模糊集的IR模型
基于模糊集的IR模型(续)
基于模糊集的IR模型(续)
基于模糊集的IR模型的优缺点
信息检索模型分类
扩展布尔模型
扩展布尔模型(续)
扩展布尔模型(续)
扩展布尔模型(续)
扩展布尔模型(续)
扩展布尔模型(续)
扩展布尔模型的优缺点
信息检索模型分类
向量空间模型回顾
文档-标引项矩阵(Doc-Term Matrix)
隐性语义索引(LSI)
奇异值分解(Singular Value Decomposition,SVD)
去掉噪音
新矩阵A’
新空间下的表示
SVD更新策略
SVD更新策略
K值的选取
一个例子
结果
有关LSI的实验结论
信息检索模型分类
概率统计初步
随机试验和随机事件
概率和条件概率
乘法公式、全概率公式和贝叶斯公式
事件的独立性
随机变量
概率检索模型
信息检索模型分类
回归(Regression)
Logistic 回归
Logistic 回归IR模型
特征函数fi的选择
Logistic 回归IR模型(续)
信息检索模型分类
二值独立概率模型BIM
BIM模型(续)
BIM模型(续)
BIM模型(续)
一个例子
BIM模型(续)
pi qi参数的计算
pi qi参数的计算(续)
pi qi参数的计算(续)
pi qi参数的计算(续)
BIM模型小结
BIM模型的优缺点
BIM的发展
BIM模型和VSM的比较
课后练习(暂停)
信息检索模型分类
统计语言建模IR模型(SLMIR)
统计语言模型(Statistical Language Modeling)
不同模型的例子
课堂思考
SLM的一个应用例子
SLM的一个例子(续)
一个问题
和检索的对比
查询似然模型(Query Likelihood Model)
QLM求解步骤
QLM概念理解
MD的估计
MD的MLE估计
文本生成的多项式模型
多项随机试验
多项随机试验(续)
MD的参数求解
MLE估计的零概率问题
MLE估计零概率的一个例子
例子(续)
例子中的MLE估计
数据平滑的一般形式
几种QLM中常用的平滑方法
QLM的求解过程图示
文档排名函数的转换
其它SLMIR模型
香农(Shannon)信道
基于翻译模型的IR模型
KL距离(相对熵)模型
统计语言建模IR模型优缺点
课后练习(暂停)
本章小结
The end.
现代信息检索 Modern Information Retrieval
提纲
提纲
相关反馈(Relevance Feedback)
幻灯片编号 5
查询扩展(Query Expansion)
为什么要进行查询扩展?
相关反馈和查询扩展
相关反馈和查询扩展示意图
检索-相关反馈-查询扩展循环
提纲
显式相关反馈
多媒体检索中的显式相关反馈
初始结果
(用户显式)相关反馈
再次检索的结果
小结
提纲
隐式相关反馈
用户行为种类
点击行为(Click through behavior)
眼球动作(通过鼠标轨迹模拟)
关于Eye tracking
小结
提纲
伪相关反馈
小结
提纲
查询扩展的方法分类
提纲
不同模型下的查询扩展
不同模型下的查询扩展
向量空间模型中的查询扩展
Rocchio公式的变形
Rocchio公式的优缺点
不同模型下的查询扩展
概率模型中的查询扩展
概率模型中查询扩展的优缺点
基于用户相关反馈的QE的优缺点
提纲
局部分析 vs. 全局分析
基于局部分析的查询扩展
基于局部分析的查询扩展
基本思路
关联簇(1)
关联簇(2)
一个关联簇的例子
度量簇(1)
度量簇(2)
标量簇
基于簇的查询扩展
基于局部分析的查询扩展
基本思想
LCA的三个步骤
q和c的相似度计算
LCA的使用
提纲
全局分析的思路
传统全局分析 vs. 现代全局分析
基于相似词典的查询扩展
Term之间的相似度计算(1)
Term之间的相似度计算(2)
查询q和term之间的相似度计算
利用sim进行查询扩展
基于统计词典的查询扩展
聚类过程
Term选择过程
小结
The end.
现代信息检索技术 Modern Information Retrieval
About text operations
提纲
提纲
词法分析(Lexical Analysis)
提纲
英文词法分析(1)
英文词法分析(2)
英文词法分析(3)
英文词法分析(4)
中文词法分析(1)
中文词法分析(2)
中文词法分析(3)
中文词法分析(4)
中文词法分析(5)
中英文词法分析
提纲
停用词消除(1)
停用词消除(2)
提纲
英文词干还原(1)
英文词干还原(2)
中文重叠词还原(1)
中文重叠词还原(2)
中文重叠词还原(3)
提纲
Index term的选择
提纲
文档聚类
小结
The end.
现代信息检索 Modern Information Retrieval
课前思考题
引言
什么是分类?
分类非常普遍
课堂思考题
课堂思考题
课堂思考题
什么是聚类
一个聚类的例子
信息处理中分类和聚类的原因
分类/聚类的过程
提纲
提纲
课堂思考题
文本分类的定义 Text Categorization/Classification
文本分类的模式
关于分类体系
应用
幻灯片编号 20
回到课堂思考题
提纲
人工方法和自动方法
规则方法和统计方法
文本分类的过程
文本分类系统的组成框架
特征抽取(Feature Extraction)
文本表示
文档-标引项矩阵(Doc-Term Matrix)
文档之间的相似度计算
Term的粒度
中文分词
权重计算方法(1)
权重计算方法(2)
特征选择Feature selection(1)
特征选择(2)
特征选择(3)
特征选择(4)
特征选择方法的性能比较(1)
特征选择方法的性能比较(2)
特征选择方法的性能比较(3)
特征重构
自动文本分类方法
决策树(decision tree)方法(1)
幻灯片编号 45
决策树方法(3)
其他决策规则学习方法 Decision Rule Learning
回归方法(1)
回归方法(2)-LLSF
回归方法(3)-LLSF
Rocchio方法(1)
Rocchio方法(2)
kNN方法(1)
kNN方法(2)
朴素贝叶斯(Naïve Bayes)方法(1)
朴素贝叶斯方法(2)
Online Linear Classifiers
The Widrow-Hoff Classifier
多重神经网络(Neural Network)
支持向量机(1) Support Vector Machine
幻灯片编号 61
幻灯片编号 62
幻灯片编号 63
幻灯片编号 64
幻灯片编号 65
非线性可分情况下的处理(方法1)
幻灯片编号 67
非线性可分情况下的处理(方法2)
变换到高维空间的支持向量机
幻灯片编号 70
支持向量机(2)
基于投票的方法
分类方法的比较
提纲
分类方法的评估(1)
分类方法的评估(2)
其他分类方法
提纲
文本聚类定义
文本聚类的应用
幻灯片编号 81
提纲
幻灯片编号 83
聚类算法(1)
聚类算法(2)
凝聚式层次聚类(HAC)
k-Means聚类分析
BiSecting k-Means聚类(BiSect)
最近邻聚类(Nearest Neighbour)
MaxDist算法
提纲
纯度
F值
小结
文献及其他资源
The end.
现代信息检索 Modern Information Retrieval
提纲
课前思考题
引言
提纲
基于字符串匹配的搜索
Brute force方法
KMP方法
其他方法及其他匹配方式
提纲
前向索引(1)
前向索引(2)
前向索引(3)
倒排索引(1)
倒排索引(2)
倒排索引(3)
倒排索引(4)
建立倒排索引的大致过程
中文分词(Chinese Word Segmentation)
英文词根还原(Stemming)
停用词消除
排序
排序举例(1)
排序举例(2)
排序举例(3)
排序举例(4)
写入临时索引文件
合并多个临时索引文件
索引压缩
倒排索引的更新
词典的组织
布尔查询的处理
短语查询的处理
小结
The end.
现代信息检索 Modern Information Retrieval
课前思考题
提纲
提纲
信息过滤的定义
信息过滤系统示意图
信息过滤系统的特点
信息过滤系统数据流图
IF vs. IR (1)
IF vs. IR (2)
IF vs. IC (Info. Classification)
IF vs. IE
IF 的一些应用
提纲
IF分类示意图
按Initiative of operation分
按Location of operation分
从过滤方法分
社会过滤的一个实际例子
Collaborative Filtering
从获得用户兴趣的方法分
提纲
一般组成
Data-analyzer component
User-model component
用户建模不仅仅用于过滤 (Beyond Filtering)
Filtering component
Learning component
IF系统中的两个概念
基于统计的IF系统
基于知识的IF系统
IF系统中的用户建模
IF系统中的学习
提纲
IF系统的评估方法
评估指标(1)
评估指标(2)
提纲
现状
关于用户建模
关于过滤技术
关于评估
关于构架和相关技术
IF中其他需要考虑的问题
一些商用 IF系统 (1)
一些商用 IF系统 (2)
一些商用 IF系统 (3)
References
小结
The end.
现代信息检索 Modern Information Retrieval
提纲
提纲
多媒体(Multimedia)定义(1)
多媒体定义(2)
多媒体对象
多媒体文档非常普遍
多媒体文档更具娱乐性
多媒体检索非常困难
多媒体检索发展历史
多媒体检索成为竞争焦点
多媒体检索的方法(1)
多媒体检索的方法(2)
多媒体检索的一般框架
多媒体对象中的特征
相似度计算
Browsing
Query by Example(基于样例的查询)
Query by Sketch(基于草图的查询)
多媒体检索中的相关反馈
初始结果
(用户)相关反馈
再次检索的结果
一些多媒体检索的应用
跨媒体检索(Cross-media retrieval)
提纲
音频(audio)
音频规格
音频中的特征层次
查询形式(1)
查询形式(2)
语音检索(Speech Retrieval)
普通音频检索
音乐检索
提纲
图像(image)
图像规格
图像视觉特征
颜色特征
纹理特征
纹理的分割
形状特征
查询形式
基于视觉特征的检索
基于对象和区域特征的检索
基于综合特征的检索
文字型图像的检索
提纲
视频(Video)
视频中的特征层次(1)
视频中的特征层次(2)
视频的分析及检索
视频的浏览
视频的检索
小结
The end.
现代信息检索 Modern Information Retrieval
背景
提纲
提纲
并行计算
并行体系结构
MIMD结构
分布式计算
并行计算的性能度量
提纲
一般检索过程
多任务(multitasking)并行(1)
多任务并行(2)
单查询内部并行
Term-Document视图
基于文档分割的倒排索引分割(1)
基于文档分割的倒排索引分割(2)
基于文档分割的倒排索引分割(3)
基于Term分割的倒排索引分割
提纲
分布式信息检索
分布式检索体系结构
分布式检索 vs. 并行检索
分布式信息检索的文档集分割
标准化问题
分布式信息检索中的查询处理
资源选择
结果合并
小结
The end.
现代信息检索 Modern Information Retrieval
提纲
提纲
WEB IR的定义
WEB搜索引擎和一般IR的区别
WEB图结构
WEB图中的一些概念
WEB的相关特性(1)
WEB的相关特性(2)
WEB的相关特性(3)
基于WEB特性的一些研究
搜索引擎类型
检索型/综合型搜索引擎
目录型搜索引擎
专题型搜索引擎
特定型搜索引擎
元搜索引擎
非WEB型搜索引擎
搜索引擎简史回顾
搜索引擎索引网页数目变化(1)
搜索引擎索引网页数目变化(2)
Cuil
提纲
搜索引擎基本组成示意图
例子--Google的组成
组成模块的功能
提纲
信息采集的概念
信息采集的基本结构
采集的遍历算法
采集网页的更新策略
采集网页的速度保证措施
采集网页的质量保证措施
采集中的“礼貌”问题
信息采集的研究趋势
提纲
信息分析
分类聚类在搜索引擎中的应用
信息索引(indexing)
前向索引(Forward index)
倒排索引(Inverted index)
提纲
信息搜索
查询的分析和挖掘(1)
查询的分析和挖掘(2)
信息检索模型
基于内容的相似度计算方法
基于内部结构的相似度计算方法
基于链接结构的相似度计算方法
原始的PageRank公式
简单计算的例子(c=1)
转化成矩阵形式
回到刚才简单计算的例子(c=1)
一个稍微复杂的例子
计算过程
改进的PageRank公式
PageRank的计算
PageRank面对的Spamming问题
IBM的HITS算法
Hub & Authority
计算方法
计算和应用过程
PageRank vs. HITS
链接分析的研究趋势
TOP k Search
查询扩展
相关反馈
摘要生成
结果的聚类
相关推荐
相关推荐(续)
信息搜索的研究趋势
小结
Adversarial Information Retrieval
Web作弊与反作弊
Web作弊的危害
Web作弊的方法
Web作弊的方法
利用关键词提高排名
利用链接提高排名(1)
利用链接提高排名(2)
利用链接提高排名(3)
Web作弊的方法
内容隐藏
覆盖(Cloaking)
重定向
一些反作弊技术
WEB作弊和反作弊的长期斗争
The end.
现代信息检索 Modern Information Retrieval
提纲
提纲
Memex
About Vannevar Bush
MIT的Intrex
OBAR & LITE
IBM STAIRS
图书馆信息管理系统
两种对存档资料检索的形式
两个系统的主要区别
现代数字图书馆
我国数字图书馆建设
提纲
数字图书馆不仅仅是数字化的图书馆
定义一
定义二
定义三
定义四
上述定义的共性
几个视角
提纲
传统的图书馆信息分发过程
电子方式的图书馆信息分发过程
数字图书馆的全分布系统结构
提纲
元数据
文档类型和表示
提纲
联邦搜索(Federated Search)
存取管理
标准及Z39.50
提纲
DLI(Digital Libraries Initiative)
DLI-2
小结
The end.
现代信息检索 Modern Information Retrieval
课前思考题
提纲
提纲
概念(1)
概念(2)
为什么要进行CLIR
CLIR的应用场合
CLIR的难点
主要的解决办法—翻译(1)
主要的解决办法—翻译(2)
翻译的主要做法
基于词典的方法
基于MT的方法
基于并行语料库的方法
CLIR中两个主要技术难点
多语言检索的实现
国际CLIR评测
提纲
概念(1)
概念(2)
QA系统的两种做法(1)
QA系统的两种做法(2)
问题类型的例子
问题子类型的一个例子
问题类型的判定
答案的抽取(以事实型问题为例)
QA 评测
小结
The end.
现代信息检索 Modern Information Retrieval 第○章 课程相关情况简介 (About the course) 授课人:王斌 wangbin@ict.ac.cn http://ir.ict.ac.cn/ircourse/ 2009年9月 最后更新日期:2009-9-18 中科院研究生院2009年度秋季课程 1
提纲 什么是信息检索? 为什么要学习信息检索? 课程情况 中科院研究生院2009年度秋季课程 2
提纲 什么是信息检索? 为什么要学习信息检索? 课程情况 中科院研究生院2009年度秋季课程 3
搜索引擎 中科院研究生院2009年度秋季课程 4
更多的搜索引擎 中科院研究生院2009年度秋季课程 5
中科院研究生院2009年度秋季课程 6
信息检索技术的应用 搜索搜索 舆情分析 舆情分析 IRIR技术技术 推荐推荐 情报处理 情报处理 内容安全 内容安全 中科院研究生院2009年度秋季课程 挖掘挖掘 7
信息检索 学科:一门有关信息获取、存储、组织 和访问的学科 应用:针对用户需求返回满足该需求信 息的一门应用 中科院研究生院2009年度秋季课程 8
分享到:
收藏