logo资料库

TRS Server全文检索服务器.doc

第1页 / 共4页
第2页 / 共4页
第3页 / 共4页
第4页 / 共4页
资料共4页,全文预览结束
TRS Server 全文检索服务器 随着网络的普及,如何更快捷、更方便、更智能地查找、利用信息已成为业界和社会关注的焦点。TRS 内容检索服务器(TRS Sever)属于 TRS 数据层产品,乃是 TRS 历经近廿年历史发展而来的核心技术产品之 一,其核心功能是对“非结构化”信息提供全文检索功能。所谓非结构化信息是指文字、网页、图表、音 视频多媒体信息等各种看似相关性比较弱、无法用关系型数据库等结构化的方式来获取和处理的信息,例 如企业内外部的新闻、邮件、互联网上的消息以及文件等。如何实现非结构化信息之间的联动,是所有信 息基础平台需要解决的难点。TRS 内容检索服务器成功解决了这一难题,成为国内公认的全文检索最具实 力的厂商。TRS 在高端检索领域具有的突出优势,使得 TRS 内容检索服务器目前拥有超过 1200 家企业级 用户。该项技术不仅成功应用于新华社、人民日报社等新闻单位的多个项目当中,更是目前媒体信息化建 设的核心动力之一。 (一) 支持多种体系结构 TRS 容检索服务器支持所有主流的体系结构:在数据库方面,支持 RDBMS 关系型数据库,包括 Oracle, DB2, MS SQL Server, Sybase, Informix, 能与关系型数据库无缝集成提供领先的检索解决方案;在操作系统 方面,支持各种主流操作系统和各种 Web 应用服务器及 Web 服务器。TRS Server 还支持数据库一对多的 单向镜像、多线程设计、SMP 体系结构、大量并发用户访问、32 位平台和 64 位文件读写(即支持大于 2G 或 4G 的数据库)、IA-64 平台、XML 和 OFFICE 文档过滤。 (二) 中文自然语言处理 在中文信息处理方面,TRS 采用领先的中文自然语言处理技术,通过内嵌智能汉语自动分词系统技术, 建立大量歧义排除规则,即检索“华人”不会把类似“中华人民共和国”的网页检索出来,因而有效地提高 了检索的准确性。TRS Server 使系统在中文语言辞典和国家标准编码智能检索的基础之上,进行中文自动 分类、自动摘要和相似检索,进而提供多种索引方式,比如按词、字、关键词、字词的混合索引,适应了 不同应用环境的需求,而不仅仅是允许使用正文中的任意字、词、句和片段进行检索。 (三) 数据管理功能 在全方位的数据管理方面,TRS 内容检索系统可支持 Unicode 以及多媒体数据的存储,实现了真正的 海量数据结构管理和应用,进一步体现了全方位的信息检索。TRS Server 数据管理支持中文、英文和中英 文混合数据,在字段类型应用方面,具有 6 种多样化的技术应用功能,比如支持 DATE(日期)、NUMBER(数 值)、CHAR(字符串)、PHRASE(短语)、DOCUMENT(全文)和 BIT(多媒体)等多种字段类型,并且在诸如系
统级、数据库级、记录级、字段级等多种安全控制手段的支持下,高速加载数据,最大限度地满足各种类 型用户的数据应用需求。TRS Server 数据存放的方式多样,既可以集中存放也可以分散存放或以 URL 方式 存放。TRS Server 支持数据库记录的自由删改,而且通过合理设置,不影响数据维护的正确性和安全性。 在完成高性能的数据管理功能的同时,TRS 还确保数据和索引的高效压缩管理,使数据空间膨胀率保持在 -0.2—1.0 之间。 (四) 检索功能 TRS 内容检索服务器提供全面的信息检索功能,例如:中英文混合检索,结构化非结构化数据混合检 索,任意字、词、句、片段检索,自动分库检索,多库并行检索。TRS 提供全方位检索手段和查寻方法, 多达 48 种检索运算符,包括外部特征与正文内容的各种逻辑组合检索、位置检索、二次检索、渐进检索、 历史检索、词根检索、大小写敏感检索、概念检索、对检索结果按与检索表达式的相关性和重要性程度排 序等;基于成本优化的查询算法,包括高效的索引压缩技术、索引跳跃式扫描技术、多库并行检索技术、 完善的多级 Query-CACHE 技术、基于词以及词频的 bi-gram 算法等, 单机环境下使得 G 级数据库查询速度 达到亚秒级,确保全面、快速地实现检索。 (五)智能检索功能 TRS 内容检索服务器提供智能的检索功能,能够满足特殊应用领域的高查准率和高查全率的要求。它 根据主题词典实现扩展或相关检索功能,扩展检索包括主体词典自动扩展检索、同义词/反义词自动扩展检 索,全半角自动扩展检索等,比如在主题词典中,有一个主题词为“民间工艺”,它的下位词有“编织”、 “惠山泥人”、“剪纸”、“麦杆剪贴”、“民间石雕”、“木偶”等,为了达到提高查全率的目的,检 索“民间工艺”,则系统可以自动扩展检索到包含它的下位词的所有网页;相反,在检索“木偶”时,如 果发现检索结果很少时,可以通过扩展上位词检索到更多的网页。 (六) 安全管理功能 在实现如此完备的内容检索功能的同时,TRS 内容检索服务器还确保管理的安全性,具有系统级、数 据库级、记录级和字段级四级安全控制机制,与 TRS API 之间加密和压缩传输。TRS Server 除了可对数据 库进行联机备份外,还提供系统所有信息的联机备份,并可以根据需要灵活配置日志管理。 (七) 用户管理功能 TRS 提供多种权限级别的内容检索用户管理,支持用户组概念、Group DBA 概念、适应大型应用中复 杂的系统管理。 TRS 内容检索服务器支持所有主流的体系结构,具有良好的跨平台性和开放性。在中文自然语言处理 方面,TRS 独创了许多处理办法,开创中文智能语言处理之先河。TRS 检索功能强大,支持海量数据检索, 是国内唯一的千万级商业应用的大型检索数据库系统。
典型案例 (一) 新华社多媒体数据库 新华社多媒体数据库汇集新华社文字、图片、图表、视音频、报刊等全部资源和社会上其他有价值的 新闻信息资源,是国内最大规模的多媒体、多文种新闻信息综合性数据库。文字系统不仅收录了新华社全 部原创新闻信息,还汇集了大量的海内外媒体数据资源。TRS 为新华社多媒体数据库系统提供强大的检索 功能。检索方式分为本地联机检索和远程网络检索两种方式,提供多种检索方法,分为精确检索、模糊检 索、全文检索,可对各检索入口项实行任意联合组配检索,实现多级检索,逐级细化检索条件,直至命中 满意的检索结果,并能够对检索结果排序;提供中、英文全文检索功能,中文按词进行全文检索,具有智 能词库机制。对图片可按分类号、作者、拍摄时间、拍摄地点、照片文字说明等类项检索,其中文字说明 项可实现中文按词全文检索。支持逻辑库功能,支持跨库检索。支持文字资料和图片资料的系统链接。 (二) 人民网网上综合信息服务系统
《人民日报》是中共中央机关报, 是中国最具权威性、发行量最大的综合性日报,是世界十大主要报 纸之一。人民网是《人民日报》建设的以新闻为主的大型网上信息发布平台,是国家重点新闻网站,也是 互联网上最大的中文新闻网站之一。目前,在人民日报报社各个核心业务部门有多套 TRS 产品在运行使用 着,随时在为社内/社外、离线/在线的大量用户提供着全方位的信息服务。其中,人民网网上综合信息服务 是采用 TRS 智能全文检索服务器和搜索引擎产品建立的网站内容检索系统,对网页信息和资料数据库信息 提供有效、高速的查询服务。
分享到:
收藏