基于元数据仓储的数字资源整合与实践

〔摘 要〕数字资源整合是现阶段图书馆发展的必然趋势.笔者根据所在单位开展数字资源整合平台的建设经验, 介绍了国内外有代表性的资源整合系统,对比了国内主要的资源整合模式,明确了资源整合的目标,具体描述了基于元数据仓储的数字资源整合平台的建设过程,主要包括元数据仓储的建设、统一检索系统的建设和资源调度系统的建设.

〔关 键 词 〕元数据;仓储整合;资源整合;统一检索

〔中图分类号〕G250.73 〔文献标识码〕B 〔文章编号〕1008-0821(2012)10-0046-04

“我们淹没在信息的海洋中,却饱受着知识的饥渴”这句话恰到好处的形容了我们所面临的信息环境[1].随着计算机技术和网络技术的迅猛发展,图书馆所面临的信息环境发生了巨大的变化,馆藏资源除了传统的印刷型文献以外,还包括数字图书、数字期刊以及网络资源等不同类型的资源.由于这些资源分布于不同的数据库当中,每种数据库的构建方式、支持平台都不尽相同,同时数据的组织形式、管理模式以及存储格式也不尽相同,这就出现了数据库之间的异构性问题.不同的数据库之间知识关联程度较低,而且内容交叉重复.当用户检索文献时,由于各数据库的检索界面和检索方法都不一样,用户需要在不同的数据库之间进行切换和重复操作,无法实现“一站式”的便捷检索,同时查准率、查全率也难以得到保障.因此,如何有效地对数字资源进行集成、重组、整合,建立具有关联性的资源体系,以解决“数字信息孤岛”,提高数字资源的利用率成为图书馆迫切需要解决的问题[2].

1.国内外资源整合系统的介绍

20世纪90年代,国外图书馆和IT界就开始了有关数字资源整合方面的相关研究[3].相继开发出一些功能完善、应用成熟的数字资源整合系统,如ExLibris公司开发的X、MetaLib和DigiTool等产品,探索出一套完整的数字资源整合解决方案[4];Iunovative Innovativefaces公司的MAP(Millnenium Access Plus)系统,通过WebOPAC的搜索功能及Innopac Milennium版的管理模块将馆内的各类型的电子资源整合到一套资源存取管理工具中[5].此外,还有UnionSearch Platform、ENCompasswith Link Finder Plus、WebFeat、Ilink、Chameleon iportal、Iport、Zportal、Xdierctory and Xflow、Uportal等系统,在国外也有很广泛的应用[5].特别是由ProQuest的Serial Solutions部门开发设计的Summon服务系统,近年来引起了业界的广泛关注,获得了由软件和信息协会(SIIA)颁发的2011年的CODIE奖,被誉为最好的企业检索解决方案[6],成为北京大学图书馆数字资源整合的3个备选系统之一[7].

我国图书馆探索数字资源整合研究始于2003年,之后逐渐受到关注.在理论研究方面,《电子图书馆整合检索之理论与实践》(台湾的陈昭珍学者所著)是我国第一部数字资源整合方面的著作,该书分析了图书馆进行数字资源整合的必要性以及整合模式,介绍了Z39.50协议在数字资源整合中的应用,并对今后的整合检索发展趋势作了一些前瞻性的展望[8].李家清的《信息资源整合》、贾宏的《数字图书馆网络信息资源整合及其技术分析》,以及马文峰主持的国家基金项目“数字资源整合的理论与方法”,都对数字资源整合理论进行了深入的探讨.在应用实践方面,由于相关研究起步较晚,目前国内相对成熟的数字资源整合系统并不多,具有代表性的有清华同方的异构统一检索平台USP(Union Search Platform)、北京拓尔思(TRS)的资源整合门户(TRS IIP)和参考链接系统(TRS Info Linker)[1],还有超星的读秀和Medalink(百链)系统等.

2 资源整合案例——以沈阳航空航天大学图书馆为例 近几年,沈阳航空航天大学图书馆(以下简称我馆)加大了数字资源的引进和自建力度.目前,我馆以各种形式开通的中外文数据库达到了28个,自建专题数据库5个,数据存储达到42.6 TB,此外还开通了多个免费的数据库,形成了以引进数字资源为主、自建数据资源为辅的类型多样、内容广泛的馆藏数字资源体系.2011年,我馆成功申报了财政支持地方高校发展专项基金项目“辽宁省航空航天专题数字资源共享平台建设”,以此为契机,为了提高我馆数字资源的利用效率,把异构资源统一检索平台作为项目建设的重点工作,进而实现数字资源的深度整合.

2.1 资源整合系统的选择

数字资源整合是在各种数字资源自主性、分布性、异构性的基础上,运用各种集成技术和手段将各类数字资源集成在统一的利用环境下,实现“一步到位”的检索,让用户极其方便的利用各种数字资源,为其节省宝贵的时间和精力[9].数字资源整合需要借助相对成熟的软件系统,整合系统的选择就显得至关重要.对于国外的资源整合系统,考虑到成本高、空间距离远以及技术支持响应速度慢等因素,首先被排除掉,不作为备选方案.国内的资源整合系统,理论上有两种实现统一检索的资源整合方式,即通过抽取元数据的深度资源整合和通过技术层面的外挂式资源整合.我馆重点调研和试用了清华同方的异构统一检索平台USP、超星的读秀和Medalink(百链)两个系统.


清华同方的USP采用了双层的B/S结构体系,包括用户注册和引擎配置模块、统一检索模块以及检索结果显示模块三部分[10].它的工作原理是分析异构数据库的各个字段,进行字段间的映射,再把用户的检索请求转换成能被不同数据库接受的检索表达式,通过数据库厂商提供的数据接口并发检索本地或互联网上的多个数据库,最后对检索结果进行去重、排序,并以统一的格式将检索结果输出到结果页面上.USP的检索过程相当于代替用户同时登陆多个异构数据库进行检索并把检索结果返回给用户.如图1所示. 图1 USP检索原理

读秀和Medalink学术搜索,是由超星公司研制开发的基于海量元数据及全文数据的中外文知识搜索和文献传递系统.读秀学术搜索是全球最大的中文文献资源服务平台,Medalink整合了国内高校图书馆购买的100多个外文数据库的元数据,也被称作“外文读秀”[11].元数据是关于数据的who、what、when、where、why and how,是“关于数据的数据”[12].读秀和Medalink的工作原理是将所有可利用的异构数据库内资源对象的元数据记录导入到一个新的数据库中,归并、查重、处理后重新生成全文索引,当用户提出检索请求时,为用户提供指向数字资源的超链接.如图2所示.

图2 元数据检索原理

我馆自2011年3月开始,先后对上述两个资源整合系统进行了全面、深入的试用,覆盖了我馆的馆藏书目、28个商业数据库以及5个自建数据库.对于本地资源,主要测试、评估对数据的映射、收割和导入,以及对信息的揭示和资源获取的速度等方面;对于外网资源,进行了对元数据索引中数字资源规模、质量的考察,以及与我馆所购数字资源覆盖程度的比对.通过试用对比发现,基于跨库检索模式的资源整合系统,仅仅通过建立一个界面来接受用户的检索请求,并将这些请求转换成相应的数字资源系统方法和检索语言,并将各个资源系统返回的检索结果进行排序和整合[13].这种整合模式,尽管技术简单、操作方便,而且不占用大量的存储空间,但是限于目前计算机的处理能力和网络宽带等因素,需要很长的时间才能将检索结果返回到用户统一操作界面,浪费了用户大量的时间,同时检索结果的去重、查全率和查准率并不能得到有效的保障.而基于元数据仓储的资源整合系统,通过对元数据的聚合,为资源整合打下了一个实际的同构基础.经过收集、转换后,不仅数据格式统一、结构清晰,而且可以按照用户的需求建立多种分类体系,甚至可以实现对数据更高级的组织和管理.另外,在整合资源规模,特别是外文资源方面,超星的资源整合系统远远好于清华同方的系统,也更适合于我馆,可以很好的弥补我馆外文文献的不足,所以,我馆选择了与超星合作,进行数字资源统一检索平台的建设.

2.2 资源整合的目标

采用了基于元数据仓储的数字资源整合模式,整合资源包括本地资源和远程访问资源,其文献类型有纸质图书、电子图书、电子期刊、会议论文、学位论文、报纸、专利、标准、互联网免费资源等.为用户提供统一的检索界面,实现“一站式”的获取服务.检索结果的输出不但速度快、无重复,而且要实现文献类型的聚类以及多角度的导航.利用OpenURL(开放链接) 解析功能,实现检索结果与OPAC系统、数据库全文、网站网页地址、参考咨询以及馆际互借等服务的无缝链接,让用户通过最恰当的途径能够获取目标内容和服务.允许用户采用选择、排序、二次检索等方式处理检索结果,保证用户能够方便、灵活地保存和输出检索结果(下载、打印、E-mail发送等).

2.3 中心数据库仓储数据的建设

元数据的抓取要通过数据收割工具,将不同文献系统中的数据收割、转换、装载到数据仓库中,数据抓取共分为3个步骤:第一步是本馆已经收集完整的图书元数据、中文期刊元数据以及外文期刊元数据,直接通过Z39.50协议存储到元数据库中;第二步是本馆未收集到的元数据部分,通过OAI-PMH协议的收割元数据工具,收割支持OAI-PMH协议的开放资源的元数据,将其更新并存储到元数据库中.OAI-PMH元数据收割取协议(OAI Protocol for Metadata Harvesting,OAI-PMH),简称OAI协议,是一个在分布式的网络化环境下获取特定元数据信息的标准协议,该协议通过定义一个标准的接口,使服务器能够将其存储的元数据信息有选择地提供给外部应用程序或其他服务器[14];第三步是对于不支持OAI协议的数据库,提供基于网页分析的元数据抓取工具Spider,可以抓取不支持OAI协议的元数据存储到元数据库中.

元数据的处理要借助于智能查重排序分析、OLAP分析以及报表工具等数据分析预处理工具,对关系表实施映射合并处理,提前建立索引,通过相关的事实表、维表用以支持多维业务试图,从而实现对仓储数据的多维分析,以建立标准的元数据格式;元数据存储在中心元数据库中,主要分成索引目录、关系映射数据库,各自发挥着不同的作用.索引目录被用于检索,而关系映射数据库则被用于元数据与原文之间的关联;元数据仓储通过提供OAI-DP服务,可以实现其它应用系统调用并返回XML格式的结果.资源调度系统与元数据仓储进行集成,能够提供调度任务的分发记录;元数据自动更新工具,可以实现对元数据实时更新和发布.元数据的应用流程如图3所示.

元数据收割、抓取元数据查重、索引处理元数据统一检索资源调度获取全文图3 元数据的应用流程

2.4 统一检索系统的建设

元数据以统一格式存储之后,为了搜寻方便,需要建立一个元数据搜索引擎.搜索进程不断监听新的搜索任务,一旦发现有新的搜索任务,则向指定的数据提供者URL发出带不同命令行参数的OAI请求,并得到相应的响应结果,这就是搜索引擎的基本工作过程[15].其算法选择如下:首先为这些元数据创建一系列索引表,按照题名、创建者、日期、主题等元数据信息的集合形式排列.当用户有检索需求时,输入一个关键字,搜索引擎会到一系列索引表中进行搜寻, 如果搜寻到符合条件的检索信息,会把与此有关的元数据信息全部抽取出来,以提高查全率;同时,为了提高查准率,需要对索引关 键 词 进行筛选.利用过滤器对关 键 词 实施筛选,要从已经标准化的元数据中进行提取,将其格式信息完全过滤掉,进而获得关键字,而不是全部元数据信息,接下来,把通过关键字形成的索引表传送给搜索引擎,再根据索引进行搜寻,搜寻到的结果就是元数据当中的关键字,而这部分关键字则对应着元数据十分完整的信息,用户利用关键字可以很方便地找到元数据对应的数据资源信息,整个检索过程即索引列表——关键字——元数据——资源数据. 资源整合系统支持快速检索和高级检索,支持对文章内容的全文检索;支持多面搜索,即检索一种文献类型资源时,还可以显示出其它文献类型资源信息;同时通过自然语义分析,调整用户检索词的分词体系以达到精确检索、智能检索的目标.系统利用聚类缓存技术及数据库集成技术,使得检索结果的反馈时间以秒级计算.检索结果的输出支持统一格式显示,不但能够实现排序、合并及去重,还能够实现对检索结果的多角度聚类和分组.如图4所示.

图4 沈阳航空航天大学图书馆统一检索界面

2.5 资源调度系统的建设

资源调度系统是帮助图书馆及用户在检索与原文获取之间建立链接的系统,主要解决图书馆文献服务中上下文敏感帮助和原文链接服务.该系统是基于OpenURL标准的多级调度系统,能够自动更新调度知识库,允许自定义本地调度规则并个性化调度服务[16].资源调度系统采用了动态脚本技术来制定调度规则,这样便于增加新的资源与服务,能更有效地实现资源与服务的调度.同时支持向第三方提供资源注册的接口、标准,便于数据商对资源注册信息进行批量更新.

OpenURL是一种开放式的链接框架结构,可以将信息源、信息服务和用户需求很好地融合在一起.OpenURL全文链接同时附带有元数据信息、资源地址信息,利用维护链接解析器,依照相应规则动态生成开放链接的“URL”,一对一、一对多地实现资源之间的链接,并对资源之间的关系进行动态的管理.资源调度遵循着就近最快原则,即对不同资源设立权重,根据客户端来源情况判断优先调度最快资源;遵循自动传递优先于人工传递原则,对于常用资源实现自动传递,自动传递无法判断的需求自动转到人工传递.3 结 语

数字资源整合是信息社会发展的必然,是实现信息共享的前提,是提供优质化服务的基础[17].基于元数据仓储的数字资源整合系统,具有强大的资源整合功能、完善的数据集成功能、高效的后续服务功能,为用户提供了方便、快捷的“一站式”服务.当然,基于元数据仓储的数字资源整合方案也存在着一些问题,如元数据存储需要占用大量的硬件空间、数据更新可能不及时等,但是总体来看,它还是现阶段比较优秀的数字资源整合方案.

类似论文

馆藏数字资源整合系统构建探究

关 键 词 :图书馆,数字资源,整合系统 摘 要 :馆藏数字资源整合是当代数字图书馆发展的必然产物,它的目的是为图书馆的数字资。
更新日期:2024-9-11 浏览量:118404 点赞量:25830

精神专科医院资源整合的实践与体会

摘 要:在新一轮医药卫生体制改革的形势下,精神专科医院如何主动适应改革形势,调整工作思路和工作格局,适应未来发展的需要,满足老。
更新日期:2024-5-28 浏览量:72120 点赞量:16666

数字资源整合管理

摘 要:本文探讨在信息化时代下,剖析本馆数字资源利用现状,试图从管理的角度来对数字资源的利用作一定的研究,然后在此基础上结。
更新日期:2024-8-11 浏览量:103767 点赞量:22163

网络学术信息平台建设与数字资源整合应用的

【摘 要 】 着重研究高校内学术资源信息平台的建设,同时探索学术信息平台与外部学术资源整合检索的可行性、整合原则及实现学术资源整。
更新日期:2024-9-25 浏览量:122394 点赞量:27314

基于OAIPMH的本地资源元数据开放

[摘 要 ]针对基于OAI-PMH开放本地资源数据库元数据问题,描述网络化环境中获取元数据信息事实上的标准OAI&。
更新日期:2024-8-15 浏览量:106688 点赞量:23474

高校图书馆数字资源整合

摘 要 :随着当前社会信息化的迅速发展,高校图书馆也同样面临面临着来自于网络信息化带来的变革,因此高校图书馆应该联系实际需要。
更新日期:2024-5-10 浏览量:67970 点赞量:15249

数字文化资源的元数据格式

〔摘 要〕元数据可以实现对庞大数字文化资源的描述、管理和有效检索 本文首先介绍了数字文化资源的特点和应用中对元数据į。
更新日期:2024-8-27 浏览量:107224 点赞量:23308