馆藏数字资源整合系统构建探究

关 键 词 :图书馆,数字资源,整合系统

摘 要 :馆藏数字资源整合是当代数字图书馆发展的必然产物,它的目的是为图书馆的数字资源建立统一检索平台,为用户提供一站式检索.文章阐述了馆藏数字资源整合的必要性,介绍了数字资源整合系统的构建方法和步骤,力求为用户提供快捷的馆藏数字资源利用途径.

中图分类号:G250.76文献标识码: A文章编号:1003-1588(2012)01-0096-03

1前言

当前,国内图书馆已基本进入数字化时代,许多图书馆都加大对数字资源的建设和利用,比如创建馆藏文献书目数据库、自建各种特色数据库和购买各类型文献数据库等.这些数据库由于来源不同,系统之间彼此独立、数据存储结构、信息组织方式和查询方式等都各不相同,用户若要查找、利用馆藏数字资源,必须分别进入各个数据库系统,在熟悉每个数据库的检索方式下才能获得所需要的数字资源,这给用户利用信息造成一定程度的困难;为了使用户能快速地利用图书馆数字资源,有必要对馆藏数字资源进行整合,建立图书馆馆藏数字资源整合系统.

馆藏数字资源整合,是指依据一定原则与规定,借助数字资源无缝链接等技术,把不同来源和不同通信协议的信息系统相互兼容,使不同类型、不同格式的数字资源实现无缝链接[1].馆藏数字资源整合系统是一个跨平台、跨数据库、跨内容、多层次的数字资源体系.

2馆藏数字资源整合的必要性

2.1馆藏数据库资源存储格式不同,给用户利用馆藏资源带来不便

当前我国对数字资源的存储格式没有统一规定,数字资源的存储格式由数字资源研制机构自己决定,比如,图像文件可选择JPEG格式、GIF格式或IFF格式[2];文本文件可选择PDF格式、X格式、SGML格式、HML格式或XML格式;音频或视频文件可选择I格式、MPEG格式、W格式或MIDI格式.这些不同的存储格式,决定了各个数据库拥有相对独立的管理系统、检索界面和检索方式;由于各个数据库的检索设计规则和检索字符等互不相同,用户必须先后进入各个数据库中进行信息检索才能从各个数据库中获取所需要的信息,这给用户利用馆藏数字资源带来了很大的不便.

2.2馆藏数据库的内容存在着一定程度的交叉重复,降低了用户对信息的查准率

馆藏文献数据库内容重复使用户必须花费大量的时间和精力对数据进行筛选,从而降低用户对信息的查准率.比如中国期刊数据库、维普中文期刊数据库,它们都是收录国内的期刊论文、会议论文和学位论文;一篇普通的论文,既被中国期刊数据库收录,又被维普中文期刊数据库收录,从而造成中国期刊数据库和维普中文期刊数据库的收录内容交叉重复.超生电子图书数据库和书生电子图书数据库,它们收录的对象都是国内出版的图书,这使它们所收录的图书数据,有很多条目的内容是相同的;这些相同的信息,不仅增加图书馆的成本和运行成本,还增加用户对馆藏资源利用的时间成本,从而降低用户对馆藏数字资源的利用效率.

2.3检索途径与检索界面不同

各种数据库对信息资源采用不同的描述方式和组织架构,使它们的检索途径各有特色,从而导致它们的检索界面迥然不同[3];此外,各种数据库中还存在着大量的附件,它们以DOC 、PP、 PDF等文件形式存储在服务器上,仅仅在检索界面上保留了附件的标题、年份、作者等信息,用户难以通过简单的标题、年份、作者等信息来辨认该条信息的具体内容.

2.4网站登录

网站登录系统是指图书馆在购买商业数据库的使用权后,在图书馆的网站建立该商业数据库的登录链接.由于商业数据库网站创建的时间和采用的技术不同,其检索方式也存在着差异;用户若需要利用这些数据库资源,必须不断游走于各个数据库网站,从而降低用户对信息的利用效率.

为解决馆藏数字资源因数据描述方法和组织方式不同、信息存储格式差异和数据库内容交叉重复,方便用户对馆藏数字资源的利用,有必要在图书馆构建数字资源整合系统.

陈锦波:馆藏数字资源整合系统构建探究

3馆藏数字资源整合系统的构建

3.1馆藏数字资源的整合方法

在馆藏数据库中,既有数据组织方式和通讯协议不相同,又有数据收录内容交叉重复;既有自建数据库,又有购买商业数据库;因此,针对不同类型的数据库,分别采用协议标准整合方法、主题图整合方法和网络爬虫与搜索引擎相结合的方法.

3.1.1协议标准整合方法

对数据组织方式和通信协议不相同的数据库,需采用协议标准整合方法.协议标准整合方法是通过借助中间件技术手段,比如OAI-PMH(Open Archives Iniiaive Proocol for Meadaa Harvesing)协议[4],对采用不同数据组织方式和不同通信协议的数据库在同一界面内实现整合检索,从而实现数字资源整合目的.

3.1.2主题图整合方法

针对数据库收录内容交叉重复的数字资源,易采用主题图整合方法.主题图整合方法是将数字资源之间的关系通过“主题、资源出处和关联关系”的形式,将一定领域内的知识结构和它们之间的语义关系具体化.主题图整合方法是一种操作简单且具有成效的解决方法.[5]

3.1.3网络爬虫与搜索引擎相结合的方法

图书馆购买商业数据库的使用权,用户若需要利用这些数据资源,必须先登录各个商业数据库网页,这难免给用户带来麻烦,而采用网络爬虫与搜索引擎相结合的方法,则能为用户减少这些麻烦.网络爬虫是一个自动提取网页的程序,它与搜索引擎相结合,从万维网上下载网页;网络爬虫与搜索引擎相结合,使馆藏数字资源整合系统能根据一定的搜索策略从各商业数据库中选择需要抓取的网页URL(Universal Resource Locaor ),所有被抓取的网页,经分析、过滤、存贮,供用户查询和检索.


3.2馆藏数字资源的整合步骤

3.2.1针对数据组织方式和通信协议不同的数据库的整合步骤

利用OAI-PMH协议,储存整合对象的数据库系统,其中包含可使用撷取协定进行检索的诠释资料;这些诠释资料经过都柏林(Dublin Core)元素集(Elemen Se)编码记录后,以XML的编码格式传回.OAI-PMH还支持Perl、Ja和C++等程序语言,它能从不同的数据组织方式和通信协议的数据库中获得诠释资料,依据诠释资料制作索引作为搜寻线索,以达到搜寻全文信息的目的.此外,还需要建立新的框架体系结构,来解决馆藏数字资源整合系统与各数据库系统之间的互操作性问题.比如,采用OAI-PMH建立典型的元数据采集框架,实现元数据的互操作,实现馆藏数字资源整合系统与各数据库系统之间的互操作.利用OAI-PMH协议标准整合数据资源,实现馆藏数字资源整合系统与各数据库系统之间的互操作是数字图书馆发展的新趋势.

3.2.2馆藏数据库收录内容交叉重复的整合步骤

对馆藏数据库收录内容交叉重复的整合,必须采用主题图整合方法.

主题图起源于传统的图书馆查询辅助工具,比如书后索引、术语表和叙词表等,它吸收了传统索引和图书馆学科等优点,它用来描述庞大复杂的信息结构.主题图能够为馆藏数据库整合提供一个语义接口,为用户提供语义层面的检索功能,克服基于关 键 词 匹配查找效率低的缺点.利用主题图整合方法的步骤是将每一个主题作为一个结点,通过主题关联关系将各个结点相互联系起来;通过资源出处,在资源域和主题域之间建立映射关系.资源域既包括结构化数据,也包括文本文档、XML文档等非结构化数据,可实现对分布式资源的多重索引;主题域则是在资源域之上建立起来的概念地图,它为主题图提供有效的信息组织和导航方法,减轻用户使用信息资源时的信息迷航.资源域和主题域相互分离,使相同的主题可以覆盖不同的资源域,不同的主题也可以覆盖相同的资源域,这种机制为用户提供不同角度的视图,它迎合用户使用习惯,更能满足用户对数字信息的需求.

3.2.3商业数据库的整合步骤

对商业数据库的整合,必须采用网络爬虫与搜索引擎相结合的方法.它的整合步骤是:先创建采集对象,读取爬虫程序的配置文件;根据配置文件创建采集线程;根据预先设定好的语义,读取所有数据库,判断该数据库是否需要登录;如果需要登录,则系统会自动跳转到登录处,并利用预先设定的字符、字段抽取信息列表中的URL,放入采集队列中;重复以上步骤,直到信息列表中的URL全部被获取,并编入采集队列;循环以上采集队列,访问数字资源的详细页面,利用抽取规则获取页面HML文件,诸如标题、作者、摘 要 等字段内容,将获取的内容存入相关表中,完成本次采集.爬虫程序既采集页面上的信息,也采集存储于商业数据库的附件文件,从而保证整合系统信息资源的完整性[6].

3.3数据清理

为了保证用户在资源整合系统中使用标准的检索词进行检索,准确获取检索结果,需要对上述三种形式获取的数据进行必要的数据清理.具体的方法是在系统中设定机构、作者、年份和叙词表,以保证系统中指定字段的标准记录;设计去重的标识字段,让整合程序首先运用去重标识字段对入库数据进行扫描,先剔除相同的记录,再使用相似度比对方法,对数据库的题录信息进行比较,若比较结果大于相似阀值,则作为相似记录处理,录入备用表中;利用已创建机构、作者、年份、叙词表,结合字符串比对方式对部分字段中的数据进行格式转换和数据清理,并为馆藏数字资源整合系统建立标准的数据格式.

3.4标引模块

标引模块的主要任务是构建一个分类体系,建立类与类之间的层级关系.利用分类标引方法,在馆藏数字资源整合系统中建立各种分类标引模块,使用户能借助分类标引模块接口对馆藏数字资源进行导航和检索.为保证用户从每个类目入口都可以检索到与之相关的信息,馆藏数字资源整合系统必须采用可叠加的分类标引,即可对单条记录进行多次标引.

3.5检索模块

以题名、作者、出版年、主题词和关 键 词 等条目作为索引导向,创建可提供用户信息检索的模块称检索模块.检索模块包括跨库检索、高级检索、布尔逻辑检索、机构导航和分类导航等.跨库检索是用户可同时选中多个异构数据系统,进行一键式检索.高级检索是用户无需在检索界面上输入逻辑算符、语种和年代限制等符号,只需在系统提供的“Search For”检索对话框中输入检索词,选择所需的逻辑算符、语种、年代和文献类型等以及相应的限制字段,即可执行检索.布尔逻辑检索是高级检索的组成部分,它提供检索生成器,用户只需在生成器中通过选择字段和操作符,利用检索式之间的逻辑关系建一个树形结构,系统就会自动生成一个布尔表达式;通过这种方式,用户可构建一个复杂的检索式.机构导航和分类导航,是指用户选择相关机构或分类,通过链接方式找到需要的资源.检索模块所检索出来的信息,按相关度正序或时间倒序排列,用户只要选择其中任何一条信息,就会得到该信息的位置和详细内容.[7]

3.6全文数据管理模块

馆藏数字资源整合系统中的所有数据,还是存在于各个数据库中,这就需要在馆藏数字资源整合系统中建立全文数据管理模块.全文数据管理模块是判断用户检索信息的数据库来源,通过系统设定的路径,自动转向该信息所在的数据库,直到打开相关文件信息.全文数据管理模块的工作方式分为两种.第一种,对于开放链接的数据库,可直接通过访问数据库的URL获取全文信息;具体操作是用户将索引库中保存的原文地址或附件地址打开,根据系统提示浏览或保存所需要获取的信息.[8]第二种,对于不支持开放链接的数据库,则需要登录相关数据库才能获取全文;具体操作是用户选择记录在索引表中的数据库信息,整合系统凭借该信息指定的数据源,根据预设的策略,在信息来源数据库中用指定的检索词进行检索,并将检索结果返回用户界面.

4结语

图书馆馆藏数字资源整合系统的构建是数字资源整合理论在数字图书馆工作上的实践运用,但不同性质和规模的图书馆还是要结合自身情况、用户对数字资源的需求情况,合理构建馆藏数字资源整合系统.馆藏数字资源整合系统能支持用户利用信息、提炼知识和解决问题,真正为用户提供一站式服务,真正为用户创造一个良好的数字资源学习和运用环境.

类似论文

馆藏文献资源供需平台的构建模式

图书馆购买图书大体可以分为预订和现货采购两种主要方式,出版社直销包括了这两方面内容 其他如邮购、网上只是少量的辅助形式,。
更新日期:2024-4-1 浏览量:11795 点赞量:4280

数字资源整合管理

摘 要:本文探讨在信息化时代下,剖析本馆数字资源利用现状,试图从管理的角度来对数字资源的利用作一定的研究,然后在此基础上结。
更新日期:2024-8-11 浏览量:103767 点赞量:22163

网络学术信息平台建设与数字资源整合应用的

【摘 要 】 着重研究高校内学术资源信息平台的建设,同时探索学术信息平台与外部学术资源整合检索的可行性、整合原则及实现学术资源整。
更新日期:2024-9-25 浏览量:122394 点赞量:27314

国土资源经济信息系统构建

【摘 要】本文简单介绍了国土资源经济研究信息系统的设计目标、原则、数据库设计,从而实现对国土资源经济信息进行管理。
更新日期:2024-2-14 浏览量:31963 点赞量:8049

高校图书馆数字资源整合

摘 要 :随着当前社会信息化的迅速发展,高校图书馆也同样面临面临着来自于网络信息化带来的变革,因此高校图书馆应该联系实际需要。
更新日期:2024-5-10 浏览量:67970 点赞量:15249

基于元数据仓储的数字资源整合与实践

〔摘 要〕数字资源整合是现阶段图书馆发展的必然趋势 笔者根据所在单位开展数字资源整合平台的建设经验, 介绍了国内外有代表性的资源整合。
更新日期:2024-4-1 浏览量:12597 点赞量:4680