现代信息检索课件~王斌老师的.pdf

发布时间：2022-06-01 发布人：admin 分类：说明书资料大小：16.81M 资料格式：pdf 举报版权申诉

old__yang-3135484-现代信息检索.pdf-第1页.png

第1页 / 共985页

old__yang-3135484-现代信息检索.pdf-第2页.png

第2页 / 共985页

old__yang-3135484-现代信息检索.pdf-第3页.png

第3页 / 共985页

old__yang-3135484-现代信息检索.pdf-第4页.png

第4页 / 共985页

old__yang-3135484-现代信息检索.pdf-第5页.png

第5页 / 共985页

old__yang-3135484-现代信息检索.pdf-第6页.png

第6页 / 共985页

old__yang-3135484-现代信息检索.pdf-第7页.png

第7页 / 共985页

old__yang-3135484-现代信息检索.pdf-第8页.png

第8页 / 共985页

现代信息检索Modern Information Retrieval

提纲

提纲

搜索引擎

更多的搜索引擎

幻灯片编号 6

信息检索技术的应用

信息检索

从信息规模上分类

提纲

市场发展的需求

几个应用需求

对相关专业研究生的基本要求

幻灯片编号 14

幻灯片编号 15

幻灯片编号 16

幻灯片编号 17

幻灯片编号 18

提纲

课程的宗旨

老师介绍(1)

老师介绍(2)

本课程的特点

授课内容简介

授课方案

考核方式

2006年选课情况分析

2006年考试结果分析

2007年选课情况分析

2007考试结果分析

国际著名研究机构和代表人物

国际著名研究机构和代表人物

幻灯片编号 33

幻灯片编号 34

国际著名研究机构和代表人物

一些活跃的华裔学者

一些活跃的华裔学者

国内一些相关研究机构

重要会议

ACM SIGIR

IR相关研究领域及会议

重要期刊

重要工具

课程网站和邮件列表

参考书籍及文献

Manning的书介绍

对不同专业学生的期望

The end

现代信息检索Modern Information Retrieval

课前思考题

提纲

提纲

信息角色的历史变迁

信息过载(Information overload)

Internet增长(1)

Internet增长(2)

全球数字化进程加快

问题！

幻灯片编号 11

信息检索(Information Retrieval) (1)

信息检索(2)

信息检索(3)

信息检索(4)

信息检索的基本概念(1)

信息检索的基本概念(2)

信息检索的基本概念(3)

信息检索的基本概念(3)

信息检索的基本概念(4)

信息检索的基本概念(5)

信息检索和数据库检索

信息检索

提纲

历史分段

IR历史(1)

IR历史(2)

IR历史(3)

IR 历史(4)

IR 历史(5)

IR历史(6)

IR历史(7)

提纲

相关研究领域

图书情报学(Library and Information Science, LIS)

数据库管理系统(Database Management, DM)

人工智能(Artificial Intelligence,AI)

自然语言理解(Natural Language Processing,NLP)

NLP和IR融合的其他方面

机器学习(Machine Learning,ML)

ML和IR融合的方面

提纲

IR系统示意图

IR系统的组成框架

IR系统的组成部分(1)

IR系统的组成部分(2)

IR系统的组成部分(3)

本章小结

课后思考题

The end

现代信息检索Modern Information Retrieval

课前思考题

提纲

提纲

关于评价

从竞技体育谈起

为什么要评估IR？

IR中评价什么？

如何评价效果？

评价任务的例子

评价指标分类

评价指标分类

回到例子

整个文档集合的划分

评价指标

四种关系的矩阵表示

基于集合的图表示

回到例子

课堂提问：另一个计算例子

正确率和召回率的应用领域

关于正确率和召回率的讨论(1)

关于正确率和召回率的讨论(2)

课堂提问：

回到例子

正确率和召回率的问题

如何在大规模数据情况下计算召回率

关于召回率的计算

4个系统的Pooling

基于集合的图表示

课堂提问

P和R融合

引入序的作用(1)

引入序的作用(2)

P-R曲线的例子

P-R曲线

P-R 曲线的插值问题

P-R曲线图

P-R的优缺点

基于P-R曲线的单一指标

P-R曲线中的break point

引入序的作用(3)

不考虑召回率

回到例子

评价指标分类

评价指标(9)

回到例子

课堂提问：

整个IR系统的P-R曲线

几个IR系统的P-R曲线比较

面向用户的评价指标

其他评价指标

其他评价指标

近几年出现的新的评价指标

Bpref

原始定义

特定情况

最新定义

GMAP

GMAP

NDCG

NDCG

NDCG

NDCG

NDCG

NDCG

关于评价方面的研究

提纲

TREC 概况

TREC的目标(1)

TREC的目标(2)

TREC的运行方式(1)

TREC的运行方式(2)

TREC的运行方式(3)

TREC的运行方式(4)

测试数据和测试软件

TREC任务情况

历届TREC参加单位数示意图

参加过TREC的部分单位

TREC中名词定义

Topic的一般结构

Topic示例

使用Topic的方式

评测方法

相关性评估过程(1)

相关性评估过程(2)

其他评测会议

TRECVID (TREC VIDeo)

MUC (Message Understanding Conference)

ACE(Automatic Content Extraction)

DUC(Document Understanding Conference)

其他评测

本章小结

课后练习题

课后练习题(续)

关于课后练习

The end

现代信息检索Modern Information Retrieval

提纲

信息检索模型

相关概念

信息检索模型分类

信息检索模型分类

集合(直观描述)

集合的并运算和交运算

集合的差运算和余(补)运算

布尔代数

布尔模型

布尔模型匹配的集合表示

布尔模型(续)

课堂思考题

我的解答

Google检索结果

布尔模型的优缺点

信息检索模型分类

向量

向量的模、距离和夹角

向量空间模型

文档-标引项矩阵(Doc-Term Matrix)

一个例子

一个例子(续)

VSM中三个关键问题

Term的选择

权重计算

权重计算(续)

权重计算(续)

权重计算(续)

权重计算模式--TF

权重计算模式--IDF

权重计算模式--Length

权重计算模式

相似度计算

VSM的发展

VSM的优缺点

课堂思考题

我的解答

课后练习(暂停)

信息检索模型分类

布尔模型回顾

普通集合

模糊集合

模糊集隶属函数的性质

基于模糊集的IR模型

基于模糊集的IR模型(续)

基于模糊集的IR模型(续)

基于模糊集的IR模型的优缺点

信息检索模型分类

扩展布尔模型

扩展布尔模型(续)

扩展布尔模型(续)

扩展布尔模型(续)

扩展布尔模型(续)

扩展布尔模型(续)

扩展布尔模型的优缺点

信息检索模型分类

向量空间模型回顾

文档-标引项矩阵(Doc-Term Matrix)

隐性语义索引(LSI)

奇异值分解(Singular Value Decomposition，SVD)

去掉噪音

新矩阵A’

新空间下的表示

SVD更新策略

SVD更新策略

K值的选取

一个例子

结果

有关LSI的实验结论

信息检索模型分类

概率统计初步

随机试验和随机事件

概率和条件概率

乘法公式、全概率公式和贝叶斯公式

事件的独立性

随机变量

概率检索模型

信息检索模型分类

回归(Regression)

Logistic 回归

Logistic 回归IR模型

特征函数fi的选择

Logistic 回归IR模型(续)

信息检索模型分类

二值独立概率模型BIM

BIM模型(续)

BIM模型(续)

BIM模型(续)

一个例子

BIM模型(续)

pi qi参数的计算

pi qi参数的计算(续)

pi qi参数的计算(续)

pi qi参数的计算(续)

BIM模型小结

BIM模型的优缺点

BIM的发展

BIM模型和VSM的比较

课后练习(暂停)

信息检索模型分类

统计语言建模IR模型(SLMIR)

统计语言模型(Statistical Language Modeling)

SLM的一个例子

SLM的一个例子(续)

基于查询似然的信息检索模型

语言模型下的文本生成

一元语言模型的参数估计

语言模型用于检索

基于似然的排序(d是MD的参数)

基于查询似然的信息检索模型的理解

类比：一个例子

类比：一个例子(续)

类比：一个例子-回到IR

抛骰子：多项(Multinomial)随机试验

查询似然检索模型的形式化(1)：一些标记

形式化 (2)

形式化 (3)

语言模型的估计和数据平滑

最大似然估计(MLE)和零概率问题

一个简单的例子

数据平滑的一般形式

求解过程

文档排名函数的转换

几种SLMIR中常用的平滑方法

Shannon信道模型

翻译模型

KL距离(相对熵)模型

统计语言建模IR模型优缺点

课后练习(暂停)

本章小结

The end.

现代信息检索Modern Information Retrieval

提纲

信息检索模型

相关概念

信息检索模型分类

信息检索模型分类

集合(直观描述)

集合的并运算和交运算

集合的差运算和余(补)运算

布尔代数

布尔模型

布尔模型匹配的集合表示

布尔模型(续)

课堂思考题

我的解答

Google检索结果

布尔模型的优缺点

信息检索模型分类

向量

向量的模、距离和夹角

向量空间模型

文档-标引项矩阵(Doc-Term Matrix)

一个例子

一个例子(续)

VSM中三个关键问题

term的选择

权重计算

权重计算(续)

权重计算(续)

权重计算(续)

权重计算模式--TF

权重计算模式--IDF

权重计算模式--Length

权重计算模式

相似度计算

VSM的发展

VSM的优缺点

课堂思考题

我的解答

课后练习(暂停)

信息检索模型分类

布尔模型回顾

普通集合

模糊集合

模糊集隶属函数的性质

基于模糊集的IR模型

基于模糊集的IR模型(续)

基于模糊集的IR模型(续)

基于模糊集的IR模型的优缺点

信息检索模型分类

扩展布尔模型

扩展布尔模型(续)

扩展布尔模型(续)

扩展布尔模型(续)

扩展布尔模型(续)

扩展布尔模型(续)

扩展布尔模型的优缺点

信息检索模型分类

向量空间模型回顾

文档-标引项矩阵(Doc-Term Matrix)

隐性语义索引(LSI)

奇异值分解(Singular Value Decomposition，SVD)

去掉噪音

新矩阵A’

新空间下的表示

SVD更新策略

SVD更新策略

K值的选取

一个例子

结果

有关LSI的实验结论

信息检索模型分类

概率统计初步

随机试验和随机事件

概率和条件概率

乘法公式、全概率公式和贝叶斯公式

事件的独立性

随机变量

概率检索模型

信息检索模型分类

回归(Regression)

Logistic 回归

Logistic 回归IR模型

特征函数fi的选择

Logistic 回归IR模型(续)

信息检索模型分类

二值独立概率模型BIM

BIM模型(续)

BIM模型(续)

BIM模型(续)

一个例子

BIM模型(续)

pi qi参数的计算

pi qi参数的计算(续)

pi qi参数的计算(续)

pi qi参数的计算(续)

BIM模型小结

BIM模型的优缺点

BIM的发展

BIM模型和VSM的比较

课后练习(暂停)

信息检索模型分类

统计语言建模IR模型(SLMIR)

统计语言模型(Statistical Language Modeling)

不同模型的例子

课堂思考

SLM的一个应用例子

SLM的一个例子(续)

一个问题

和检索的对比

查询似然模型(Query Likelihood Model)

QLM求解步骤

QLM概念理解

MD的估计

MD的MLE估计

文本生成的多项式模型

多项随机试验

多项随机试验(续)

MD的参数求解

MLE估计的零概率问题

MLE估计零概率的一个例子

例子(续)

例子中的MLE估计

数据平滑的一般形式

几种QLM中常用的平滑方法

QLM的求解过程图示

文档排名函数的转换

其它SLMIR模型

香农(Shannon)信道

基于翻译模型的IR模型

KL距离(相对熵)模型

统计语言建模IR模型优缺点

课后练习(暂停)

本章小结

The end.

现代信息检索Modern Information Retrieval

提纲

提纲

相关反馈(Relevance Feedback)

幻灯片编号 5

查询扩展(Query Expansion)

为什么要进行查询扩展？

相关反馈和查询扩展

相关反馈和查询扩展示意图

检索-相关反馈-查询扩展循环

提纲

显式相关反馈

多媒体检索中的显式相关反馈

初始结果

(用户显式)相关反馈

再次检索的结果

小结

提纲

隐式相关反馈

用户行为种类

点击行为(Click through behavior)

眼球动作(通过鼠标轨迹模拟)

关于Eye tracking

小结

提纲

伪相关反馈

小结

提纲

查询扩展的方法分类

提纲

不同模型下的查询扩展

不同模型下的查询扩展

向量空间模型中的查询扩展

Rocchio公式的变形

Rocchio公式的优缺点

不同模型下的查询扩展

概率模型中的查询扩展

概率模型中查询扩展的优缺点

基于用户相关反馈的QE的优缺点

提纲

局部分析 vs. 全局分析

基于局部分析的查询扩展

基于局部分析的查询扩展

基本思路

关联簇(1)

关联簇(2)

一个关联簇的例子

度量簇(1)

度量簇(2)

标量簇

基于簇的查询扩展

基于局部分析的查询扩展

基本思想

LCA的三个步骤

q和c的相似度计算

LCA的使用

提纲

全局分析的思路

传统全局分析 vs. 现代全局分析

基于相似词典的查询扩展

Term之间的相似度计算(1)

Term之间的相似度计算(2)

查询q和term之间的相似度计算

利用sim进行查询扩展

基于统计词典的查询扩展

聚类过程

Term选择过程

小结

The end.

现代信息检索技术Modern Information Retrieval

About text operations

提纲

提纲

词法分析(Lexical Analysis)

提纲

英文词法分析(1)

英文词法分析(2)

英文词法分析(3)

英文词法分析(4)

中文词法分析(1)

中文词法分析(2)

中文词法分析(3)

中文词法分析(4)

中文词法分析(5)

中英文词法分析

提纲

停用词消除(1)

停用词消除(2)

提纲

英文词干还原(1)

英文词干还原(2)

中文重叠词还原(1)

中文重叠词还原(2)

中文重叠词还原(3)

提纲

Index term的选择

提纲

文档聚类

小结

The end.

现代信息检索Modern Information Retrieval

课前思考题

引言

什么是分类？

分类非常普遍

课堂思考题

课堂思考题

课堂思考题

什么是聚类

一个聚类的例子

信息处理中分类和聚类的原因

分类/聚类的过程

提纲

提纲

课堂思考题

文本分类的定义Text Categorization/Classification

文本分类的模式

关于分类体系

应用

幻灯片编号 20

回到课堂思考题

提纲

人工方法和自动方法

规则方法和统计方法

文本分类的过程

文本分类系统的组成框架

特征抽取(Feature Extraction)

文本表示

文档－标引项矩阵(Doc-Term Matrix)

文档之间的相似度计算

Term的粒度

中文分词

权重计算方法(1)

权重计算方法(2)

特征选择Feature selection(1)

特征选择(2)

特征选择(3)

特征选择(4)

特征选择方法的性能比较(1)

特征选择方法的性能比较(2)

特征选择方法的性能比较(3)

特征重构

自动文本分类方法

决策树(decision tree)方法(1)

幻灯片编号 45

决策树方法(3)

其他决策规则学习方法Decision Rule Learning

回归方法(1)

回归方法(2)-LLSF

回归方法(3)-LLSF

Rocchio方法(1)

Rocchio方法(2)

kNN方法(1)

kNN方法(2)

朴素贝叶斯(Naïve Bayes)方法(1)

朴素贝叶斯方法(2)

Online Linear Classifiers

The Widrow-Hoff Classifier

多重神经网络(Neural Network)

支持向量机(1)Support Vector Machine

幻灯片编号 61

幻灯片编号 62

幻灯片编号 63

幻灯片编号 64

幻灯片编号 65

非线性可分情况下的处理(方法1)

幻灯片编号 67

非线性可分情况下的处理(方法2)

变换到高维空间的支持向量机

幻灯片编号 70

支持向量机(2)

基于投票的方法

分类方法的比较

提纲

分类方法的评估(1)

分类方法的评估(2)

其他分类方法

提纲

文本聚类定义

文本聚类的应用

幻灯片编号 81

提纲

幻灯片编号 83

聚类算法(1)

聚类算法(2)

凝聚式层次聚类(HAC)

k-Means聚类分析

BiSecting k-Means聚类(BiSect)

最近邻聚类(Nearest Neighbour)

MaxDist算法

提纲

纯度

F值

小结

文献及其他资源

The end.

现代信息检索Modern Information Retrieval

提纲

课前思考题

引言

提纲

基于字符串匹配的搜索

Brute force方法

KMP方法

其他方法及其他匹配方式

提纲

前向索引(1)

前向索引(2)

前向索引(3)

倒排索引(1)

倒排索引(2)

倒排索引(3)

倒排索引(4)

建立倒排索引的大致过程

中文分词(Chinese Word Segmentation)

英文词根还原(Stemming)

停用词消除

排序

排序举例(1)

排序举例(2)

排序举例(3)

排序举例(4)

写入临时索引文件

合并多个临时索引文件

索引压缩

倒排索引的更新

词典的组织

布尔查询的处理

短语查询的处理

小结

The end.

现代信息检索Modern Information Retrieval

课前思考题

提纲

提纲

信息过滤的定义

信息过滤系统示意图

信息过滤系统的特点

信息过滤系统数据流图

IF vs. IR (1)

IF vs. IR (2)

IF vs. IC (Info. Classification)

IF vs. IE

IF 的一些应用

提纲

IF分类示意图

按Initiative of operation分

按Location of operation分

从过滤方法分

社会过滤的一个实际例子

Collaborative Filtering

从获得用户兴趣的方法分

提纲

一般组成

Data-analyzer component

User-model component

用户建模不仅仅用于过滤 (Beyond Filtering)

Filtering component

Learning component

IF系统中的两个概念

基于统计的IF系统

基于知识的IF系统

IF系统中的用户建模

IF系统中的学习

提纲

IF系统的评估方法

评估指标(1)

评估指标(2)

提纲

现状

关于用户建模

关于过滤技术

关于评估

关于构架和相关技术

IF中其他需要考虑的问题

一些商用 IF系统 (1)

一些商用 IF系统 (2)

一些商用 IF系统 (3)

References

小结

The end.

现代信息检索Modern Information Retrieval

提纲

提纲

多媒体(Multimedia)定义(1)

多媒体定义(2)

多媒体对象

多媒体文档非常普遍

多媒体文档更具娱乐性

多媒体检索非常困难

多媒体检索发展历史

多媒体检索成为竞争焦点

多媒体检索的方法(1)

多媒体检索的方法(2)

多媒体检索的一般框架

多媒体对象中的特征

相似度计算

Browsing

Query by Example(基于样例的查询)

Query by Sketch(基于草图的查询)

多媒体检索中的相关反馈

初始结果

(用户)相关反馈

再次检索的结果

一些多媒体检索的应用

跨媒体检索(Cross-media retrieval)

提纲

音频(audio)

音频规格

音频中的特征层次

查询形式(1)

查询形式(2)

语音检索(Speech Retrieval)

普通音频检索

音乐检索

提纲

图像(image)

图像规格

图像视觉特征

颜色特征

纹理特征

纹理的分割

形状特征

查询形式

基于视觉特征的检索

基于对象和区域特征的检索

基于综合特征的检索

文字型图像的检索

提纲

视频(Video)

视频中的特征层次(1)

视频中的特征层次(2)

视频的分析及检索

视频的浏览

视频的检索

小结

The end.

现代信息检索Modern Information Retrieval

背景

提纲

提纲

并行计算

并行体系结构

MIMD结构

分布式计算

并行计算的性能度量

提纲

一般检索过程

多任务(multitasking)并行(1)

多任务并行(2)

单查询内部并行

Term-Document视图

基于文档分割的倒排索引分割(1)

基于文档分割的倒排索引分割(2)

基于文档分割的倒排索引分割(3)

基于Term分割的倒排索引分割

提纲

分布式信息检索

分布式检索体系结构

分布式检索 vs. 并行检索

分布式信息检索的文档集分割

标准化问题

分布式信息检索中的查询处理

资源选择

结果合并

小结

The end.

现代信息检索Modern Information Retrieval

提纲

提纲

WEB IR的定义

WEB搜索引擎和一般IR的区别

WEB图结构

WEB图中的一些概念

WEB的相关特性(1)

WEB的相关特性(2)

WEB的相关特性(3)

基于WEB特性的一些研究

搜索引擎类型

检索型/综合型搜索引擎

目录型搜索引擎

专题型搜索引擎

特定型搜索引擎

元搜索引擎

非WEB型搜索引擎

搜索引擎简史回顾

搜索引擎索引网页数目变化(1)

搜索引擎索引网页数目变化(2)

Cuil

提纲

搜索引擎基本组成示意图

例子--Google的组成

组成模块的功能

提纲

信息采集的概念

信息采集的基本结构

采集的遍历算法

采集网页的更新策略

采集网页的速度保证措施

采集网页的质量保证措施

采集中的“礼貌”问题

信息采集的研究趋势

提纲

信息分析

分类聚类在搜索引擎中的应用

信息索引(indexing)

前向索引(Forward index)

倒排索引(Inverted index)

提纲

信息搜索

查询的分析和挖掘(1)

查询的分析和挖掘(2)

信息检索模型

基于内容的相似度计算方法

基于内部结构的相似度计算方法

基于链接结构的相似度计算方法

原始的PageRank公式

简单计算的例子(c=1)

转化成矩阵形式

回到刚才简单计算的例子(c=1)

一个稍微复杂的例子

计算过程

改进的PageRank公式

PageRank的计算

PageRank面对的Spamming问题

IBM的HITS算法

Hub & Authority

计算方法

计算和应用过程

PageRank vs. HITS

链接分析的研究趋势

TOP k Search

查询扩展

相关反馈

摘要生成

结果的聚类

相关推荐

相关推荐(续)

信息搜索的研究趋势

小结

Adversarial Information Retrieval

Web作弊与反作弊

Web作弊的危害

Web作弊的方法

Web作弊的方法

利用关键词提高排名

利用链接提高排名(1)

利用链接提高排名(2)

利用链接提高排名(3)

Web作弊的方法

内容隐藏

覆盖(Cloaking)

重定向

一些反作弊技术

WEB作弊和反作弊的长期斗争

The end.

现代信息检索Modern Information Retrieval

提纲

提纲

Memex

About Vannevar Bush

MIT的Intrex

OBAR & LITE

IBM STAIRS

图书馆信息管理系统

两种对存档资料检索的形式

两个系统的主要区别

现代数字图书馆

我国数字图书馆建设

提纲

数字图书馆不仅仅是数字化的图书馆

定义一

定义二

定义三

定义四

上述定义的共性

几个视角

提纲

传统的图书馆信息分发过程

电子方式的图书馆信息分发过程

数字图书馆的全分布系统结构

提纲

元数据

文档类型和表示

提纲

联邦搜索(Federated Search)

存取管理

标准及Z39.50

提纲

DLI(Digital Libraries Initiative)

DLI-2

小结

The end.

现代信息检索Modern Information Retrieval

课前思考题

提纲

提纲

概念(1)

概念(2)

为什么要进行CLIR

CLIR的应用场合

CLIR的难点

主要的解决办法—翻译(1)

主要的解决办法—翻译(2)

翻译的主要做法

基于词典的方法

基于MT的方法

基于并行语料库的方法

CLIR中两个主要技术难点

多语言检索的实现

国际CLIR评测

提纲

概念(1)

概念(2)

QA系统的两种做法(1)

QA系统的两种做法(2)

问题类型的例子

问题子类型的一个例子

问题类型的判定

答案的抽取(以事实型问题为例)

QA 评测

小结

The end.

现代信息检索 Modern Information Retrieval 第○章课程相关情况简介 (About the course) 授课人：王斌 wangbin@ict.ac.cn http://ir.ict.ac.cn/ircourse/ 2009年9月最后更新日期：2009-9-18 中科院研究生院2009年度秋季课程 1

提纲什么是信息检索？为什么要学习信息检索？课程情况中科院研究生院2009年度秋季课程 2

提纲什么是信息检索？为什么要学习信息检索？课程情况中科院研究生院2009年度秋季课程 3

搜索引擎中科院研究生院2009年度秋季课程 4

更多的搜索引擎中科院研究生院2009年度秋季课程 5

中科院研究生院2009年度秋季课程 6

信息检索技术的应用搜索搜索舆情分析舆情分析 IRIR技术技术推荐推荐情报处理情报处理内容安全内容安全中科院研究生院2009年度秋季课程挖掘挖掘 7

信息检索学科：一门有关信息获取、存储、组织和访问的学科应用：针对用户需求返回满足该需求信息的一门应用中科院研究生院2009年度秋季课程 8

分享到：

赞收藏

相关推荐