基于基于PROV的大洋样品数据溯源
的大洋样品数据溯源
PROV模型是W3C推荐的数据溯源模型,拥有丰富的语义词汇和数据模型。结合大洋样品领域知识,从溯源信
息的描述、溯源信息的存储和溯源信息的查询三方面介绍PROV模型在大洋样品领域的应用过程和技术路线。
刘兵,徐建良
(中国海洋大学 信息科学与工程学院,山东 青岛 266100)
摘要:摘要:
关键词:
关键词:PROV;大洋样品;数据溯源
0引言引言
大洋样品馆的主要职能为样品的收集、整理、保存、分配,属性数据提取[1],而为了能够更好地实现信息化,为样品
管理工作提供更强大的信息支持,样品馆设计并开发了大洋样品管理系统,该系统主要负责对入馆样品从入馆交接到样品分配
出库之间的信息管理工作。
目前,随着数据量的增加,以及对样品信息可靠性要求的提高,管理系统渐渐暴露出一些问题,随着样品数据的变迁很难
保证样品信息的可靠性。这个问题随着数据量与业务的不断增长,变得愈发严重。
近几年数据溯源技术的流行,为解决大洋样品管理系统产生的问题提供了比较合适的解决方案。数据溯源的研究最早可追
溯到20世纪90年代,它的名称是从“data provenance”翻译过来的,意思是对数据来源进行追踪然后将数据的历史状态重现出
来。
目前国内数据溯源的研究还比较少,将数据溯源应用到大洋样品管理中的也较为少见。国外这方面的研究比较流行,数据
溯源模型也很多,较为流行的有OPM模型和PROV模型。
1PROV模型模型
PROV是一个由W3C定义的有关溯源的标准文档集合(PROV Family),目前共由11个文档组成,其中4个为推荐标准,如
图1所示。
作为一个抽象模型,PROV并不针对具体的应用环境,而只是对于各领域下数据起源过程的一般化表达[2]。因此,如
果要将PROV应用到特定的环境中,必须根据具体情况进行相应的扩展,否则会带来诸如语义不准确等问题。
PROV数据模型(PROV DM) 是PROV标准家族的核心,其为溯源数据的表述提供了通用的术语概念。PROV模型作为一个
上层溯源模型独立于具体领域,从抽象层次上描述了溯源过程,其核心包括实体(Entity)、活动(Activity)和代理(Agent)。
实体和实体间的变化和流动通过属性prov:wasDerivedFrom来表示;实体和活动之间的关系有prov:used和
prov:wasGeneratedBy,分别表示实体被活动所使用和实体由活动产生;活动和活动之间利用属性prov:wasInformedBy表示时
间次序关系;代理之间的关系使用prov:actedOnBehalfOf属性表示;代理与实体存在的关联使用属性prov:wasAttributedTo表
达;代理与活动的关联使用属性prov:wasAssociatedWit h表达[3]。这三个比较核心的概念及其相互关系如图2所示。
PROV还包含了一个专门为数据模型而定义的比较轻量级的本体,即PROV O[4]。PROV O使用标准网络本体语言
OWL描述,支持PROV的数据模型向RDF映射[5]。PROV本体根据用户的应用需求分为三个级别,本文使用第一级别描述
大洋样品溯源信息。
2样品信息溯源
样品信息溯源
2.1溯源信息描述
溯源信息描述
资源描述框架(Resource Description Framework, RDF)是用来描述网络资源的W3C标准,RDF事实上已成为PROV模型
的标准描述方式[6]。
以样品的分割活动为例,假设某科学家申请样品A中的一部分,样品管理员(Admin01)需要将样品A(SampleA)分割
成为样品B(SampleB)与样品C(SampleC)。假设上述样品只存在样品编码(Coding)属性。
该场景涉及样品管理领域的多个概念,这些概念在PROV模型的基础上用相应的本体词汇进行描述,该词汇集
在“http://www.cosr.or g.cn/mso#”命名空间下。
这些词汇建立在PROV模型之上,是对PROV模型在本领域内的扩展,这里只列举出上文场景中出现的词汇。上述样品分
割操作的RDF描述如下:
@prefix foaf: