logo资料库

基于本体知识库推理的语义搜索研究.pdf

第1页 / 共106页
第2页 / 共106页
第3页 / 共106页
第4页 / 共106页
第5页 / 共106页
第6页 / 共106页
第7页 / 共106页
第8页 / 共106页
资料共106页,剩余部分请下载后查看
封面
文摘
英文文摘
声明
1 绪论
2 语义搜索研究概况
3 语义搜索模型
4 语义搜索中的推理研究
5 语义搜索中的关联关系排序
6 语义搜索系统实现
7 总结与展望
致 谢
参考文献
附录
华中科技大学博士学位论文基于本体知识库推理的语义搜索研究姓名:文坤梅申请学位级别:博士专业:计算机应用技术指导教师:卢正鼎20070604
I摘 要 Web上的信息增长,使得搜索技术成为了Web上最广泛的应用。现有搜索引擎的效果并不能完全令人满意,其查全率和查准率还尚待提高。语义Web的出现,为改善搜索技术提供了新思路。研究语义搜索技术,将语义Web技术应用到搜索引擎中,紧密融合检索与推理,改善当前的搜索效果,以期最终进化成下一代语义Web上的搜索引擎。 目前,国内外对语义搜索的研究还处于个案处理的初步阶段,并未形成一种通用的方法,在综合阅读国内外相关参考文献及分析研究现状的基础上,对语义搜索进行了分类研究,根据本体技术在语义搜索中的作用,将当前的语义搜索研究分为三类,分别是基于传统搜索的增强型语义搜索、基于本体推理的知识型语义搜索及其他形式的语义搜索。已提出的系统有的只利用了传统的信息检索功能,有的只能提供形式化的查询,并不存在能较好融合两者功能的系统,实现的推理服务处于初步尝试过程中,目前也不存在较为成熟的基于语义的结果排序方法。对语义搜索模型,语义搜索推理及关联关系结果排序等方面进行了深入的研究。 传统的搜索技术对于结合检索与推理的语义搜索有许多可借鉴的经验。但并不能完全适用于语义搜索。在传统搜索技术的基础上,提出了一种语义搜索模型,该模型以向量空间模型为基础,融合改进的布尔模型,将推理和检索紧密结合起来,能更好的获取用户查询的语义信息。将该模型应用到安全访问控制领域,基于RBAC安全领域本体,实现安全的访问控制,达到扩展搜索能力的目的。相对于传统搜索而言,语义搜索在查全和查准方面有一定的提高,同时语义搜索可以实现较关键字查询更复杂的关联关系查询,因融入了推理而具有相应的智能性。 推理是实现语义搜索的基础,描述逻辑已经成为了语义Web的逻辑基础。描述逻辑本身还存在一定的局限性,其表达能力和推理功能需要进一步扩展。结合规则与描述逻辑是目前看来较可行的解决方法之一,引入SWRL实现对本体规则的描述能力。基于此,提出了一种将特定缺省规则转换成描述逻辑Abox实例的推理算法,该算法针对特定缺省规则的改变通常不影响Tbox的情况,将缺省规则映射成为Abox中实例的变化,简化了推理过程,同时保持描述逻辑推理的可判定性,具有较好的可行性,并通过推理实例验证了该算法的有效性。目前语义搜索中推理的实现大多基于正向演绎推理,效率较低,将描述逻辑推理在语义搜索中实现,提高搜索效率,是语义
II搜索实现的基础。比较了目前通用的推理机,以pellet为基础,采用优化后的Tableaux算法,结合特定缺省规则,实现了语义搜索中的推理,相对一般基于RDF的三元组正向演绎推理,具有更好的推理效率。提供本体解析、添加缺省规则及本体推理功能,在一定程度上提高了机器理解的能力,可满足语义搜索中的推理需求。 关联关系搜索发现实体之间的复杂关系,随着语义网资源的迅速增长,对象之间关联关系的数量可能会超过对象本身,对关联关系进行排序已经成为语义搜索关注重点之一。影响关联关系排序的因素较多,涉及到统计学、链接分析、社会网络和词法等相关技术。针对最常见的路径关联关系,确定了其中最重要的三种影响因子,分别是领域相关度、语义关联长度和语义关联频度,并提出了影响因子的权值计算方法,在此基础上提出了一种语义关联关系排序方法,该方法可将用户真正需要的语义关联关系优先返回。 基于上述理论和实验研究成果,研制和开发了一个Smartch语义搜索原型系统,主要功能涵盖了基本搜索、概念搜索、图形化定制搜索和关联关系搜索等方面,并通过系统的试验,给出了性能分析与评价。 关键词:语义搜索,语义Web,本体,描述逻辑,推理,规则,关联关系,结果排序
IIIAbstract As the quickly increasement of web information, web search has become the most widely application based on Internet. The effect of the current search engine can't satisfy users. The recall and precision of earch engine need to be improved. The apperance of Semantic Web provides a new method for search engine. To research semantic search, we need bring the technology of Semantic Web into search engine, tightly integrate retrieval and reasoning to improve search results and evolve to the next generation search engine building on Semantic Web. Now the research of semantic search is still on the primary stage. Only several research cases are reported. There is not any universal method for the research of semantic search. Based on reading related references and analizing the research status, we classify the semantic search. According the role in which ontology plays, current research of semantic search are sort into three types, they are augment semantic search based on traditional search, intelligent semantic search based on ontology reasoning and other semantic search. Existed systems can't preferable integrate retrieval and inference. Some of them only use traditional search function and others just offer formal query. The inference services already implemented is still in the tentative process and there is not any full-grown semantic ranking method. We do some deep research mainly in semantic search model, semantic search reasoning and result ranking of association relationship. Traditional search technology can be used for semantic search which integrate retrieval and inference. However it is not fully applicable. Based on traditional search, a semantic search model is provided. The model syncretizes vector space model and modified bool model, integrate reasoning and retrieval to get better semantic information of user's query. The model is applied in the field of secure access control. Based on RBAC security ontology, secure access controlling is implemented. The aim of extending the search capability is implemented. Camparing with traditional search, the recall and precision of semantic search are improved. At the same time semantic search can provide association relationship query which finds out the complicated relatiships between entities. Semantic search is more intelligent than traditional search for bringing inference into search. Reasoning is the key of semantic search. Description logic has become the logic base
IVfor Semantic Web. However description logic is not faultless. It has its own limitation. The description capbiltiy and inference power still need to be extended. Combining rules and description logic is a more feasible method than others. SWRL is introduced to implement the ablity of description for ontology rules. Based on these, a reasoning algorithm which transforms special default rules into instances of Abox in description logic is provided. The algorithm is designed specially for the common cases that the change of special default rules usually does not affect Tbox. The conversion between the default rules and instances can simplify the reasoning process and the comlixity of the algorithm is unaltered. So the algorithm is feasible. The reasoning case validates the algorithm. Presently the reasoning of semantic search is implemented mostly by forward deduction system which is inefficient. So the inference implementation of description logic in semantic search can improve the efficiency using the optimized tableaux algorithm and combining special default rules to implement the reasoning in semantic search. It’s more efficient than the general forward deduction system based on RDF triples. The reasoning system offers ontology parsing, adding default rules and ontology reasoning function. It improves machine’s understanding capability and satisfies the inference requirement of semantic search. Association relationship search can find out the complicated relationships between entities. As the fast increasement of resources in Semantic web, the number of association relationship is possiblely greater than the number of entities themselves. So how to rank association relationship is becoming the hot key of semantic search. Aiming at the common path association relationship, three most important influence factors are confirmed. They are domain related degree, semantic assocation length and semantic assocition frenquency. The method of computing these three factors is provided. Based on these a method of ranking semantic association is offered. The method can firstly return the useful semantic association relationships to users. Based on the theory and research production mentioned above, Smartch, a prototype system of semantic search, is designed and implemented. The main function includes basic search, concept search, graphic user-defined search and association relationship search. We give performance analysis and evaluation through system experiment. Keywords: Semantic search, Semantic Web, Ontology, Description logic, Reasoning, Rule, Association relationship, Result ranking
独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名: 日期: 年 月 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 保密□, 在 年解密后适用本授权书。 不保密□。 (请在以上方框内打“√”) 学位论文作者签名: 指导教师签名: 日期: 年 月 日 日期: 年 月 日本论文属于
11 绪论 1.1 研究背景 随着Internet的爆炸性增长,WWW已经发展成为包含多种信息资源、站点遍布全球的巨大动态信息服务网络,为用户提供了一个极具价值的信息源。搜索引擎为用户提供了友好的检索接口,能帮助人们从浩瀚的数据中抽取出对用户有用的信息,能极大地节省用户的查询时间。调查数据显示,目前有68.2%的人经常使用搜索引擎,是目前仅次于电子邮件的网络应用;另有41%的人通过搜索引擎进入购物网站,84.6%的新网站是通过搜索引擎被发现。搜索引擎技术能帮助人们从浩瀚的数据中抽取出对用户有用的信息,能极大地节省用户的查询时间。同时,科学证明,搜索引擎是未知状态下发现有效信息的最有效方式。这些数据足以表明,先进的搜索引擎技术对于网民和商业用户来说,都是极具实用价值的。 Web上的搜索引擎部分地解决了资源发现问题,并取得了较大发展,例如Google、Yahoo!、百度等,Web搜索技术已经得到了普及应用,但查全率和精确度仍然不能满足用户的需求,其效果远不能使人满意。目前已有的搜索引擎大部分是基于关键字或者基于文本内容的检索,并不能充分表达语义信息。当前Web信息检索大多关注的是用户需求和信息库,而极少关注信息间的语义关系。 近年来,人们对下一代Web——语义Web[i]的发展和研究产生了浓厚的兴趣。Tim Berners-Lee在2000年提出了语义Web的概念和体系结构。语义Web是当前Web的扩展。简单地说,语义Web中“语义”的核心就是知识共享,包括计算机与计算机、人与计算机之间的共享。在计算机与计算机、人与计算机之间以无偏差的方式传递的信息,就是语义。传统的Web资源中的语义信息或领域知识以机器难以处理的自由文本的方式存在,资源间的语义关系是以一种隐含的方式存在,这些语义信息由于缺乏明确的描述而丢失。如果能明确表达Web资源语义,并把资源之间的关系冠以某种特殊的含义,在这种情况下,将大大提高资源的共享能力,这也是语义Web的研究动机。 文献[ii]在2003年提出语义搜索的概念。语义搜索是研究基于语义Web的搜索技术。其目的是通过语义Web技术提高当前的搜索性能,并构建下一代基于语义Web的新型搜索引擎。如何利用语义Web技术,将推理结合到检索过程中,从而提高当
2前的搜索效果;在语义Web环境下,如何高效的发现信息资源,实现新一代搜索引擎——语义搜索引擎,将是我们面临的新挑战。语义搜索技术可改善当前搜索引擎的搜索效果,包括查全率和查准率。做为未来语义Web的最主要应用之一,语义搜索将对人们的生活产生重大的影响。 1.2 相关理论与技术介绍 语义搜索将语义Web技术引入到搜索引擎中,是一个很有研究价值但处于初期阶段的研究课题。它涉及到包括Web搜索、语义Web与本体、描述逻辑(Description Logic,DL)等多方面的相关技术。 1.2.1 Web搜索 Web搜索属于Web知识发现领域。对于Web内容(文本)发现有两类不同的视点――信息检索(Information Retrieval,IR)和数据库(DataBase,DB),IR主要在于提高信息发现的效果、过滤不相关的网页,而DB则试图从数据库的角度来模型化Web数据,使得他们同数据库集成起来,并采用普通的数据库访问方式来获得Web信息;著名的如W3QS提出类SQL语言查询Web。Web信息检索和搜索中流行的算法如HITS、PageRank、SALSA[iii]等,其原理依然基于网络分析。国内关于Web知识发现的研究处于逐步发展的阶段,北京大学开发了“天网”,上海交通大学的叶允明等研究纯Java分步式Crawler系统[iv],哈尔滨工程大学的张国印[v]等分析了搜索引擎的技术。 目前使用较为广泛的搜索引擎包括Google和百度等。但搜索引擎的效果还远未能让人满意,搜索结果排序算法的研究、维护crawler的更新度以及对抗spam信息等将会是搜索引擎需要进一步研究的问题。文献[vi][vii]对PageRank算法作出进一步的优化,文献[viii]重点将排序问题与分布式环境结合起来,文献[ix]注意到排序在某些情况下更侧重于单一因素,文献[x]从多元向量的角度改进排序算法,以期获得更好的返回结果;crawler的并行[xi]问题已经基本解决,但网页更新(freshness)的维护[xii]将是下一步研究的重点,文献[xiii]对网页更新方案进行了分析与改进,文献[xiv]提出了一种基于元数据的协作更新方案,文献[xv]将分类法引入更新过程以提高crawler更新度;2004年Standford大学对垃圾信息(spam) [xvi]进行了分类,如何对抗垃圾信息将是未来研究的热点之一,Lehigh大学的Baoning Wu和Brian D. Davison提出了spam检测方法[xvii][xviii],已有部分研究成果出现。
分享到:
收藏