基于Lucene搜索引擎的设计与实现.pdf

发布时间：2022-06-15 发布人：admin 分类：说明书资料大小：0.37M 资料格式：pdf 举报版权申诉

47062e9a-ed69-4d50-87a0-0b4df79c9dda.pdf-第1页.png

第1页 / 共4页

47062e9a-ed69-4d50-87a0-0b4df79c9dda.pdf-第2页.png

第2页 / 共4页

47062e9a-ed69-4d50-87a0-0b4df79c9dda.pdf-第3页.png

第3页 / 共4页

47062e9a-ed69-4d50-87a0-0b4df79c9dda.pdf-第4页.png

第4页 / 共4页

文本预览

年卷第 2 0 0 9 第 13 月期 4 2 宁波职业技术学院学报 Journal of Ningbo Polytechnic Apr， 2 0 0 9 Vol．13 No．2 基于 Lucene 搜索引擎的设计与实现严良达（东南大学计算机科学与工程系，南京 210000）是一个强大的全文索引引擎工具包 , 的索引和搜索应用它可以快速地开发一个搜索引擎。并且设计实现了一个自己的搜索引擎，介绍了基于英特易搜中文搜 ——— 摘要： Lucene 网的中文搜索引擎的系统结构索引擎关键词： Web；中图分类号： TP 393．4 搜索引擎结果表明基于。， Lucene ； Lucene ，Lucene 的搜索引擎在索引和查找上的效率很高。文献标识码： A 文章编号： 1671－2153（2009）02－0057－04 0 引言／ Java Lucene[1－2]是一个用，写的全文检索引擎工可以方便地嵌入到各种应用中实现针对应用户可以基于它开发出它是一个全文检索引擎索引引擎及部分提供了完整的查询引擎具包检索功能用的全文索引，各种全文搜索的应用[3－4]。的架构文本分析引擎从问世之后本文在研究分析。引发了开放源代码社群的巨大反响作为一个开放源代码项目。运作机制的的系统结构，Lucene ，，、 Lucene 、基础上擎 ——— 设计并实现了一个基于，易搜中文搜索引擎。的搜索引 Lucene 1 搜索引擎的结构搜索引擎是根据用户的查询请求，算法从索引数据中查找信息返回给用户证用户查找信息的精度和新鲜度，建立并维护一个庞大的索引数据库引擎由网络机器人程序据库等部分组成系统结构如图按照一定为了保搜索引擎需要一般的搜索索引数索引与搜索程序所示。。、、。 1 。索引数据库 Lucene 网络机器人程序网络机器人程序 WWW 文档建立索引 Lucene 从数据库中搜索信息 JSP 服务器 Tomcat 浏览器 WWW 浏览器 WWW 图 1 系统结构收稿日期： 2008－10－14 作者简介：严良达（1980－），浙江宁波人男，，浙江工商职业技术学院助教在职硕士研究生，，从事网络和软件技术方面研究。 2009 年第 2 期 ·· 57

宁波职业技术学院学报。 “ 。（a） Web Web 扫描程序 ”（Spider），网络机器人是一个功能很强的网络机器人也称为网络蜘它页面的同时检索其内的超链接并中广泛使。程序理论上可以访问为了保证网络机器人遍历信息的。需要设定一些重要的链接并制定相蛛可以在扫描加入扫描队列等待以后扫描用超链接整个广度和深度，关的扫描策略所以一个，页面 Spider 因为 Web Web 。。，。（b）如果通过索引与搜索 SQL 为了提高检索效率网络机器人将遍历得到的页直接查询需要建立如果索引不及时用户输入搜面存放在临时数据库中信息速度将会很慢索引更新索条件后搜索程序将通过索引数据库进行检索，然后把符合查询要求的数据库按照一定的策略进行分级排列并且返回给用户按照倒排文件的格式存放用户用搜索引擎也不能检索到，，。，。，。服务器询据库进行连接（c）Web 这就需要系统提供客户一般通过浏览器进行查服务器并且与索引数客户在浏览器中输入查询条件，服务器接收到客户的查询条件后在索引数据 Web 。。 Web 库中进行查询排列、，然后返回给客户端。 2 Lucene 的索引与搜索是 Lucene Jakarta Apache 的开源项目 Java 写的全文索引引擎工具包个用嵌入到各种应用中实现针对应用的全文索引索功能，／。它是一可以方便的检。接口设计的比较通用输入输所以数据库等都可以比较方便，字段记录＝＝＞＝＝＞，的存储结构和接口中。当成一个支持全文索全文检索的实现机制 2．1 的 Lucene API 出结构都很像数据库的表很多传统的应用文件的映射到总之可以先把 Lucene 、， Lucene 引的数据库系统。 2．2 Lucene 的索引效率。，此 like“％keyword％” 作用的在使用查询时，于一页页翻书的遍历过程了查询的数据库服务来说的，like like 由于数据库索引不是为全文索引设计的使用时，因数据库索引是不起，搜索过程又变成类似所以对于含有模糊，对性能的危害是极大。如果是需要对多个关键词进行模糊匹配 “％keyword1％”and like“％keyword2％”… 就可想而知了：like 其效率也所以建立一个高效检索系统的关。 · · 2009 年第 2 期 58 ，，）（，＝＝＞关键词文章映射关系比如多篇文章将数据源有另外一个排好序的关键词列表键是建立一个类似于科技索引一样的反向索引机排序顺序存储的同制时用于存储关，利用这样的映射关系索键词引出现次数＝＝＞：[ 甚至包括位置出现（频率检索过程就是把模糊查询变成多个可以利从而大大用索引的精确查询的逻辑组合的过程提高了多关键词查询的效率全文检索问题归结到最后是一个排序问题出现关键词的文章编号起始偏移量结束偏移量所以）， ]，，，。，，：，由此可以看出模糊查询相对数据库的精确这也是大部分数查询是一个非常不确定的问题，据库对全文检索支持有限的原因最核心的特征是通过特殊的索引结构实现了传统数据库不擅长的全文索引机制以方便针对不同应用的定制并提供了扩展接口。 Lucene ，，。。 2．3 中文切分词机制对于中文来说，对于英文来说全文索引首先还要解决一个语句中单词之间但亚洲语言的中日韩文首先要把语句这个词如何切分出来就所以，。，；语言分析的问题是天然通过空格分开的语句中的字是一个字挨一个中按是一个很大的问题进行索引的话词， “ ” ，， ” 。 ” “ ， ” ， ”？：“ 时？ “ 首先上海北京天安门不能让含有（si-gram）海上肯定不能用单个字符作否则查， “ 但一句话为索引也匹计算机如何按照中 ”，还是北京天安门让计算机能够按照语言习惯进往往需要机器有一个比较丰富的词库才另外一个将单词按照二北京天安在查询将 ”，天安同这种方式对单元配文的语言习惯进行切分呢北京天安门 “ 行切分能够比较准确的识别出语句中的单词解决的办法是采用自动切分算法元语法门的时候查询词组按同样的规则进行切分安门 “and” 样能够正确地映射到相应的索引中于其他亚洲语言如韩文和日文都是通用的，北京京天天安安门： “ 这样天安门：“ ”，“ 的关系组合多个关键词之间按与 ”。还是查询方式切分出来无论是查询：比如 “ 北京（bigram） ” ＝＝＞ “ 北京 ”，。，， “ ” ，。。。，缺点是索引效率低基于自动切分的最大优点是没有词表维护成但对于中小型实现简单基于而本应用来说二元切分后的索引一般大小和源文件差不多对于英文基于二元语法的切分还是够用的索引文件一般只有原文件的，，，，。 30％～40％，

严良达基于： Lucene 搜索引擎的设计与实现不同。 2．4 Lucene Spider 与的结合首先构造一个构造 Index 类如图类用来实现对内容进行所示代码略 Index 2 （）。索引，然后构造一个 HTML 收集的新闻内容进行索引图 2 构造 Index 类解析类如图，程序 bot 把通过，所示。 3 图 3 构造 HTML 类在进行大量数据搜索时那将是非常难的所以本文提出了使用全文搜索引擎，，如果使用单纯的数速度将是极大的瓶进 Lucene ，据库技术颈行索引。搜索、。 3 搜索引擎的设计与实现 3．1 Tomcat Web 的服务器 Web 、料查询务器三个步骤器发出。 Web 、服务器是在网络中为实现信息发布资数据处理等诸多应用搭建基本平台的服页面处理中大致可分为浏览器向一个特定的服务服务器接收到第二步页面并将所服务器在第一步寻找所请求的，Web ；页面请求，Web Web ： Web 页面请求后，页面传送给 Web 服务器接收到所请求的 Web Web 浏览器页面；， Web ，第三步，并将它显 Web 请求的 Web 示出来 Tomcat 应用软件基于和是一个开放源代码的应用软件容子项目支持并由来 Servlet 运行 Web Java 、 Apache－Jakarta 社区的志愿者进行维护 JSP Web 器自开放性源代码。 Tomcat 由 Java 是根据和 Servlet 。规范进行执行 JSP 也实行了 Tomcat Server Apache－且比绝大多数商业应用软件服务器 Tomcat Server 的因此可以说。，规范， Jakarta 要好。在 3．2 Tomcat Tomcat 文件与，。 JAR Archive）程序格式包其根目录下包含有种文件的目录，这个目录很重要 web．xml 应用的配置文件的文件和一个而或类和， Servlet 上部署项目中的应用程序是一个：，和 Jsp Web Html 。 WAR 提出的一种是类似另外还会有一个 WAR （Web 应用 Sun 也是许多文件的一个压缩通常文件或者包含这两目录，目录下有一个目录是这个目录下则包含编译好所依赖的其他类如通常这些所依赖的类也可以打包成当然也可以 WEB－INF WEB－INF ，web．xml 目录下通常在 classes classes Servlet 下的 Jsp 。（，这个包中的文件按一定目录结构来组织 JavaBean）。放到 JAR 放到系统的 WEB－INF CLASSPATH lib 中。在 Tomcat 中放到，应用程序的部署很简单，目录下只需将 WAR 你的 Tomcat 会自动检测到这个文件访问这个应用的时要将转化为访问将会很快 Tomcat 译以后 Jsp Jsp 。， webapp 的并将其解压通常第一次会很慢，Tomcat 在浏览器中因为编，然后编译。，，文件， Servlet 。搜索引擎的具体实现 3．3 Lucene 文中基于 ——— Lucene 易搜中文搜索引擎设计并实现了一个支持全文易搜中文搜页面中按照超连接进行解并把搜索到的每条新闻进行索引后加入，然后通过服务器接受客户端请求后搜索的实例索引擎是从指定的析数据库从索引数据库中搜索出所匹配的新闻搜索 Web Web 。，、。 GET ，服务端设计用户通过（1）术实现交查询条件受并分析提交参数搜索操作式发送至客户端。，，主要利用的 JavaTM Servlet 技方法从客户端向服务端提容器接 Servlet 的开发包进行消息包的形服务端 Tomcat Lucene HTTP 再调用从而完成一次搜索操作最后把搜索的结果以服务端通过。。，程序的结构如图所示。 4 。 Servlet 2009 年第 2 期 ·· 59

宁波职业技术学院学报。客户端设计（2）例如，要计的时候也应充分考虑实用性和简洁性计实现的搜索引擎就以它简洁的查询界面而闻名图一个良好的查询界面非常重在设为设易搜中文搜索引擎的搜索结果 Googl 5 。。。－ 4 结束语本文首先介绍了，基于 Lucene Lucene 检索的基本概念然的索引和设计并实现了一个详后从搜索引擎的系统结构、搜索等方面进行详细的说明支持全文搜索的实例细介绍了 Lucene 实际应用可推广至许多其他的应用实例的设计与实现易搜中文搜索引擎的实际应用本文介绍的 Lucene —— 。，。。图 4 服务端 Servlet 程序图 5 搜索结果参考文献： [1] The Apache Jakarta Project：Lucene [EB ／ OL]．（2003 － [2] 04）[2008－05]． http：／／ jakar2ta．apache．org ／ lucene ／．车东全文索引引擎在应用中加入全文检索功能基于简介 ——— ． Java Lucene [EB ／ OL]．（2002－08）[2008－的 [3] [4] 05]．http：／／ www．chedong．com ／ tech ／ lucene．html．李玮搜索引擎与全文检索技术李利，． Web 情报科 [J]．学，2003（5）：265－268．徐宝文张卫丰，．清华大学出版社搜索引擎与信息获取技术 [M]．北京：，2003． Design and implementation of search engine based on Lucene （Southeast University School of Computer Science and Engineering， Nanjing 210000， China） YAN Liang-da Abstract： Lucene is a powerful full-text indexing engine kit． We can quickly develop a search engine with it． This paper introduces a system structure of Chinese search engine based on the Internet， the search and the index of Lucene， and the implementation of own search engine-Yisuo Chinese search engine． This fact indicates that the search engine based on Lucene is high efficient in indexing and searching． Key words： WEB； search engine； Lucene · · 2009 年第 2 期 60

分享到：

赞收藏

资料库

基于Lucene搜索引擎的设计与实现.pdf

相关推荐

后端

热门标签

最新资料