法律声明
本课件包括:演示文稿,示例,代码,题库,视频和声音等,小象学院和讲
者共同拥有完全知识产权的权利;只限于善意学习者在本课程使用,不得在
课程范围外向任何第三方散播。任何其他人或机构不得盗版、复制、仿造其
中的创意,我们将保留一切通过法律手段追究违反者的权利。
课程详情请咨询
微信公众号:小象
新浪微博:ChinaHadoop
互联网新技术在线教育领航者
第八讲: 语义搜索
互联网新技术在线教育领航者
大纲
语义搜索简介
语义数据搜索
混合搜索
语义搜索的交互范式
实践展示:使用Elasticsearch实现简单语义数
据检索
互联网新技术在线教育领航者
大纲
语义搜索简介
语义数据搜索
混合搜索
语义搜索的交互范式
实践展示:使用Elasticsearch实现简单语义数
据检索
互联网新技术在线教育领航者
文档检索 vs. 数据检索
不同搜索模式之间的技术差异可以分为
对用户需求的表示 (query model)
对底层数据的表示 (data model)
匹配方法 (matching technique)
信息检索(IR)支持对文档的检索(document retrieval)
通过轻量级的语法模型(lightweight syntax-centric model)表示用户的检
索需求和资源的内容,即目前占主导地位的关键词模式:词袋模型
(bag-of-words)
对主题搜索 (topic search)效果很好,即给定一个主题检索相关的文档
但不能应对更加复杂的信息检索需求
互联网新技术在线教育领航者
文档检索 vs. 数据检索
数据库 (DB)和知识库专家系统 (Knowledge-
based Expert System)可以提供更加精确的答案
(data retrieval)
使用表达能力更强的模型来表示用户的需求
利用数据之间内在的结构和语义关联
允许复杂的查询
返回精确匹配查询的具体答案
互联网新技术在线教育领航者
语义模型
语义关注的是能用于搜索的资源的含义 (meaning)。
这些含义是通过语义模型构建的
语言学模型 (Linguistic model)
对词语级别的关系建模
分类系统 (taxonomies), 同义词库 (thesauri)
概念模型 (Conceptual model)
对论域 (universe of discourse)中的语法元素(syntactic element)的关
系建模
解析(Interpretation):从语法元素到论域的映射
表达能力 (expressivity)
语言和建模结构的数量
形式化 (formality)
解析过程是可计算的(computable)
互联网新技术在线教育领航者
语义搜索分类
DB和KB系统属于重量级语义搜索系统
对语义显式的和形式化的建模,例如
ER图
RDF(S)和OWL中的知识模型 (knowledge model)
主要为语义的数据检索系统
基于语义的IR系统属于轻量级的语义搜索系统
轻量级的语义模型,例如分类系统或者辞典
语义数据 (RDF) 嵌入文档或者与文档关联
是基于语义的文档检索系统
互联网新技术在线教育领航者