heritrix与Lucene的垂直搜索引擎研究.pdf

发布时间：2022-05-30 发布人：admin 分类：说明书资料大小：0.42M 资料格式：pdf 举报版权申诉

laqiumi-9686663-4744302543379268004.pdf-第1页.png

第1页 / 共3页

laqiumi-9686663-4744302543379268004.pdf-第2页.png

第2页 / 共3页

laqiumi-9686663-4744302543379268004.pdf-第3页.png

第3页 / 共3页

文本预览

ISSN 1009-3044 Computer Knowledge And Technology Computer Knowledge And Technology Vol.4,No.2,October 2008, pp.350-352 电脑知识与技术电脑知识与技术 2008 年第 4 卷第 2 期（总第 29 期） E-mail: info@cccc.net.cn http://www.dnzs.net.cn Tel:+86-551-5690963 5690964 基于 Heritrix 郑如滨 1，撒力 1，谢婷 2 与 Lucene 的垂直搜索引擎研究集美大学计算机工程学院福建厦门集美大学诚毅学院福建厦门， 361021；2. （1. 摘要：垂直搜索是针对某一个行业的专业搜索引擎，是搜索引擎的细分和延伸，是对网页库中的某类专门的信息进行一次整合，定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。该文结合使用 Heritrix 与 Lucene 对学校新闻网站网页进行抓取并建立索引，建立相对应的新闻垂直搜索引擎系统。关键词：垂直搜索；Heritrix；Lucene；中文分词；搜索引擎中图分类号：TP311 文章编号：1009-3044(2008)29-0350-03 文献标识码：A 361021）， Research on the Vertical Search Engine Based on Heritrix and Lucene ZHENG Ru-bin1, SA Li1, XIE Ting2 (1.Computer Science & Engineering College,Jimei University,Xiamen 361021,China;2.Chengyi College,Jimei University,Xiamen 361021, China) Abstract: Vertical search engine focuses on some special fields. It’s an extension and subdivision of search engine. It can integrate and ex- tract the user-preferred information resided in the collection of web pages and return the more readable search results to the users. This pa- per constructs a news vertical search engine system which adopts the Heritrix and Lucene. Key words: vertical search engine; heritrix; lucene; Chinese word segmentation; search engine 1 引言随着互联网的迅猛发展各式各样的网站数量急剧增加互联网上的信息的也呈指数级增长其所呈现给用户的检索结果是非结构化的网页信息摘要，Yahoo、Google、Baidu 在这样的背景下，。，为特定用户提供一种专业等公司逐渐加入搜索引擎市场。这种非结构化的网页信息信息量大，如何使用户迅速地从互联网上查而传统的搜但查询不准深入的检索与呈垂，的房使用户可以充分享受垂直搜索引擎技术所带相较通用搜索引擎的无序化搜索结果的火车票搜索（soufun.com）（kooxoo.com）精确搜房、、，，是针对某一个领域的信息限定范围的具有一定的行业色彩，、，常见的垂直搜索引擎有酷讯构建一个新闻垂直搜索引擎系统，，，。。、。垂直搜索引擎深度不够（Vertical Search Engine）它所呈现给用户的搜索结果的范围是经过筛选的找到自己所需要的信息成为了一个研究的热点索引擎是通用搜索引擎确现直搜索引擎可以给用户以更准确的屋搜索。来的好处 2 垂直搜索引擎关键技术本文主要讨论如何利用。 Lucene 结构化的结果 Heritrix 与。、，网页信息抽取建立与搜索索引（Web Information Retrieval）、（Chinese word segmentation）、垂直搜索引擎系统主要是由以下几项技术构成网页爬虫中文分网页爬沿着页面中所包含的链接不断的将网可以确定所需最就（Web Crawler）、词虫通过指定的种子页抓取下来要抽取的结构化信息后对这些已经格式化的信息可以通过快速检索索引找到关键词所对应的结构化信息 2.1 网络爬虫然后将网页内容解析成格式化的信息对抓取下来的网页的内容进行分析通过中文分词建立索引。搜索时，见图（Seeds），（Index）。。。。，，， 1。图 1 垂直搜索引擎运作流程图网络爬虫也被称为网络蜘蛛（Spider）作为种子， URL 或者是网络机器人不断的抓取页面中符合条件的新的，它是一个自动抓取网页的程序所指向的页面，是搜索引擎的重要组成部分。当满足一定停止条件时 URL 。网络爬网络爬，常见的网络爬虫有与由法国的年轻人 Larbin Heritrix。 Larbin 我们的系统中使用的则是。开发者可以扩展它的各个组件 Heritrix 爬虫它是一个由来实现自己的抓取逻辑。 Sébastien Ailleret 开发的 Java 。独立开发开源的，、 Web 一个简单的网络爬虫项目 larbin 。的爬虫可以每天抓其最出色之处在于虫将一个或者若干个初始虫终止运行。 500 万的网页取它的可扩展性 2.2 网页信息抽取，，。网络爬虫所抓取的内容是无结构化的网页构建垂直搜索引擎成结构化的数据这是垂直搜索引擎与通用搜索引擎的一大差别。。需要将网页中的非结构化的数据按照一定的需求抽取出来形，，系统结合正则表达式和将网页解析为格式化的文本 HTMLParser 一般的网页文件是由元素组成。（element）。绝大多数元素是以收稿日期：2008-07-04 基金项目：集美大学科研基金资助作者简介：郑如滨，男，助教，硕士；撒力，男，讲师，博士。 350 网络通讯及安全本栏目责任编辑冯蕾：

郑如滨等：基于 Heritrix 与 Lucene 的垂直搜索引擎研究一个结尾标记结束如。，起始标记和结尾标记之间的部分是元素体他们之间的部分是是起始与结尾标记，结合上面所描述的网页文件的特征我们可以利用正则表达式提取，通用性不强文本我们结合使用正则表达式与所以我们结合解析文本的最好方法就是结合正则表达式与来提取网页信息 HTMLParser ，。 HTML 。 HTMLParser HTMLParser。每一个元素都有名称和一些可选的属性元素体。 HTML 文本是一个开源的这些而正则表达式是功能强大的文本需要支持线形它提供接口但仅仅使用正则表达式提取文本库，。。， Java ，， HTMLParser 从网页中抽取需要的信息并形成结构化的文本以供后续处理，。，一个起始标记开始，都在起始标记内表明分析工具考虑很多细节和嵌套的解析， HTML 按照用户的需求，， 2.3 中文分词与全文索引对于结构化的文本，可以使用建立索引以供快速查找是一个用写的全文索引引擎工具包 Lucene 。 Lucene Java 检索功能它使用一种倒排的技术倒排是一种面向单词的索引机制对索引中的每个词都跟随一个列表位置表用来记录单词在所有文档中出现的位置。，，（）它可以方便的，关通常它由词当搜索索引（，。通过关键词就可以迅速找到该关键词在所有文章中出现的位置嵌入到各种应用中实现针对应用的全文索引键字）的时候和出现情况两部分组成。 / ，倒排技术的一个关键之处在于确定关键词这就导致了常见的分词有中科院的并不能很好的支持中文分词理中文网页统中我们采用了 3 新闻垂直搜索引擎系统的设计分词来进行中文分词 JE ，。。， Lucene Lucene 本身然而并不能很好的处系分词分词与 JE 。 ICTCLAS 学校新闻搜索引擎系统是一个针对学校新闻网站的新闻进信息抽取与结后台存储模块与信息展示模块构该系统主要由网页抓取模块分词建立索引模块。、、行垂直搜索的系统构化模块成见图 3.1 网页抓取模块、 2。。，这部分主要采用网页抓取模块负责从学校的新闻网站抓取符合条件的新闻我们需要给出必须可以使，我们采用新闻。不漏掉新闻中心中的所有新闻 Heritrix 作为在该模块中种子的选择。种子经分析 Heritrix 实现 URL ，。，页面页面抓取的起始得 Heritrix 中心页面页面 URL ，链接 Schedular 来达到要求。 Heritrix，部分代码如下： URL if (url.indexOf("chengyi.jmu.edu.cn/news/")! = -1 || url.indexOf("dns:") ! = -1 ) 代码中够得以保存，chengyi.jmu.edu.cn/news/ 。为新闻信息页面的最后符合条件的相关新闻网页抓取下来。。图 2 校园新闻垂直搜索引擎系统因此我们需要扩展 http://chengyi.jmu.edu.cn/news/index.asp?typeid=21。加入一种选择策略把不需要的 URL 过滤掉但使用该作为起始种子总是会保存大量与新闻无关的 URL 这里我们可以扩展中的 Heritrix Frontier- 。 || url.indexOf("robots.txt") getController().getFrontier().schedule(caUri); ! = -1 的前缀因此肯定需要让其通过约束 URL ，，以使得新闻的详细信息页面能，块。包含一些特殊名词准确。。在建立索引方面， 3.2 信息抽取与结构化模块该模块是区别于垂直搜索与通用搜索的一个重要模块，地址、一个新闻页面应包含几个字段原网页的 URL ：我们设计新闻信息抽取类该类继承自中的基类按照上面分析的几个字段抽取出来 HTMLParser 其主要负责对抓取下来的网页中的所需要的数据进行抽取与结构化。新闻的正文内新闻的标题通过结合正则表达新闻的发布日期、实现了其新闻的出处新闻的作者方法、、、 Extractor，并存储在各个不同的文本文件中， extract ，以供后续处理，。最终将网页中的新闻信息 ExtractorNews，，，经分析容。式与 3.3 分词建立索引模块 HTMLParser 该模块负责对生成的文本文件进行中文分词并建立索引这部分主要采用。 JE 分词作为种分词组件，Lucene 作为全文索引模这个部分首先要添加一些专用词库本身已经有一个标准词库我们可以根据学院的具体情况创建一个包含学校学院名称。 JE ，，但由于名字及一些专有名词的特殊性在校人员姓名这样的词库这个标准词库可能不，可以使得分词更精确、，、因为考虑到搜索的时候可能需要对多个不同的部分进行搜索如对作者姓名搜索如对作者的姓名，中的使用 Lucene ，，直接采用中的 Lucene PerFieldAnlyzerWrapper 、对正文内容搜索那么我而来对文档中的多个部分结 StandardAnalyzer 分析器，，们应该对不同的部分使用不同的分析器才能达到更好的效果。最后对正文内容则应该采用合使用不同的分析器 3.4 后台存储模块的中文分析器（MMAnalyzer）。 JE 。该模块负责将格式化后的新闻文本文件存储起来到后台的闻内容的各部分建立索引 3.5 信息展示模块。 SQL server 数据库中，并在存储的同时调用分词建立索引模块对新信息展示模块主要是使用搭建一个平台给用户提供搜索界面同时使用用户所提交的关键词调用搜索服务，文章标题与文章正文内容三个部分得索引 Tomcat Web 并将所对应的结果返回给用户，搜索界面如图所示。 3 。，同，时搜索文章作者、本栏目责任编辑冯蕾：网络通讯及安全 351

Computer Knowledge And Technology 电脑知识与技术 2008 年第 4 卷第 2 期（总第 29 期） 4 结束语垂直搜索引擎给市未来搜索引擎技术发展的一个重更有效构建了一个针对学为用户提供了更好的其给用户带来的将是更准确可以预见本文通过 Lucene 。。、与， Heritrix 要方向的信息校新闻网站的一个垂直搜索引擎搜索新闻的体验参考文献： [1] 邱哲。 , 符滔滔北京开发自己的搜索引擎人民邮电出版社， —Lucene 2.0+Her- itrix[M]. . : ,2007. 中文版 [2] Gospodnetic O,Hatcher E.Lucene IN ACTION 北京电子工业出版社 [M]. : ,2007. [3] Heritrix for the Web Lab: a Tutorial[EB/OL].http://weblab. tc.cornell.edu/tools_amazon/heritrixweblab_docs.aspx. 什么是垂直搜索 ?[EB/OL].http://www.fullsearcher.com/ 图 3 搜索界面 n20051112144420735.asp. 走进搜索引擎搜索引擎原理实践与应用北京 : [M]. 、电子工业出版社北京 : [M]. ,2007. 电子工业出版社 ,2007. [4] [5] [6] （上接第 349 页） 3.3 漏洞攻击防御功能采用内存块随机化技术范已知以及未知的缓冲区溢出等漏洞技术 3.4 全面的自我保护模块。、SEH 链防覆盖技术堆栈检查等防、再好的安全系统如果自身保护不强劲也是如同虚设新式防火墙采用各种系统内核技术以及被终止进程恢复自杀技术、Inline Hook、除之间通信劫持等攻击与、Ring0 。防止程序自身出现缓冲区溢出漏洞等验，木马技术和防火墙技术、APC Ring3 DES/RSA 、SSDT 。。加密技术所以此防止过滤驱动摘另外编码时做好安全检，，这对信息安全领域的矛与盾其发木马技术从最早的简单的帐号密码的窃取和再到实现远程嵌入，防火墙技术也从原来简单的特；都获得了到利用内核插入式嵌入技术技术再到现在的主动防御技术到端口检测技术层通信及线程 DLL ，。， rookit ，，而其二者的发展都是向着涵盖技术层面越来越广泛，展也是相辅相成的发送，现在的征码技术，长足的发展向 NDIS 。。随着 0day 图 1 技术细节越来越接近计算机系统的底层通信协议、、驱动的方，，攻击在隐形信息战以及商业情报的广泛应用融入社会工程学的基于邮件木马网页木马的广义钓鱼攻击基于邮件 Word、PPT、WinRar、IE 的溢出漏洞等入侵手段都使得传统的硬件防火墙以及所以在黑客成功入侵进入目标机器后怎样阻止黑客向外传送数据敏感资料被盗就成了基于主机的安全系统的优势和关键信息安全产品参考文献： [1] Обход Outpost Firewall 3.x и 4.0 в Kernel mode[EB/OL].http://www.wasm.ru/article.php?article=outpostk. [2] Steven R Snapp,James B,Gihan V Dias et al.DIDS (Distributed Intrusion Detection System) Motivation,Architecture,and an Early Proto- 。阻断木马后门防止信息泄密因而研究能对付这类新型攻击以及其他各种日益流行的新式安全威胁的对国家整个信息安全体系以及信息战都有着很积极重要的意义入侵检测系统和杀毒软件都无能为力以及怎样阻断其对外通信的信道软件防火墙，。。、、，，， type[C]. Proceedings of the 14th National Computer Security Conference,Washington,DC,1991:167-176. 352 网络通讯及安全本栏目责任编辑冯蕾：

分享到：

赞收藏

资料库

heritrix与Lucene的垂直搜索引擎研究.pdf

相关推荐

开发技术

热门标签

最新资料