[摘 要 ]通过对数据预处理方法如数据清理、数据融合、数据集成、数据规约等的介绍,引出在数字图书馆领域数据预处理技术的具体应用.
[关 键 词 ]数据预处理;数据挖掘;数字图书馆
1数据提取
数据预处理的前期工作是对所需要的数据进行提取.图书馆信息系统中存在着大量的读者信息、图书信息、读者借还数据、图书借还数据、读者检索数据等,因此数据提取工作也是相对较为繁琐的.下面给出所提取数据的重要字段结构表(本文所提取的数据是西北大学图书馆ILAS系统中的部分数据).
读者信息表主要包括读者姓名、读者证号(区别读者的唯一标志)、性别、院系、部门等.读者信息表结构如表1所示.
2数据预处理
数据源的获取、数据获取和信息集成等相关研究为数据预处理提供了基础.根据数据挖掘的需求,将相关的多源数据集成融合后,需要进行多种数据预处理操作.数据预处理的主要流程包括数据清理、数据集成和融合、数据变换、数据规约以及在数据挖掘结果的评价计划基础上进行的二次预处理的精炼[1].数据预处理的基本流程如图1所示.
2.1 数据清理
数据清理工作是数据挖掘准备工作中最耗时耗力的工作,但也是最重要的工作.最初获得的原始数据往往是夹杂着很多错误的、有噪声的、空白的、缺失的或者冗余的数据[2].数据清理工作就是将这一部分数据加以处理.
2.3 数据规约
一般数据库中的数据表都很庞大,为了节约运算时间,我们需要对其进行规约[3].规约以后的数值将比原值小很多,但却保持了原值的完整性.规约技术使得数据挖掘更加有效可行.利用图书信息表、读者信息表、借还信息表清理融合后得到表7所示的读者借还信息表.该读者借还信息表所记录的读者借阅记录中,图书的属性有条码号、书名以及索取号.其中条码号为识别图书的唯一标志,也就是说每本图书的条码号都是唯一的.而书名和索取号则可能相同,索取号由于记录得比较详细不利于数据挖掘的运算,我们把图书的索取号即szBookIndex属性进行规约.将图书按中图法的22个大类进行划分,得到增加了新属性szCategory的读者借还信息表,如表8所示.
3结语
数据挖掘技术近几年已经开始应用于数字图书馆,利用数据挖掘方法中的聚类分析可以将读者按阅读兴趣、借阅次数等进行分类.利用数据挖掘方法中的关联规则可以为读者提供个性化的推荐服务,如将读者可能喜欢的图书进行推荐,或者将可能流行的书推荐给采购人员[4].以上所说的数据挖掘技术的应用都离不开对数据的预处理.因此数据的预处理工作既是数据挖掘工作的基础,也是数据挖掘工作中相对重要的步骤.数据预处理是数据挖掘工作科学有效的基础.
[参考文献]
[1] Han Jiawei, Kamber Micheline. 数据挖掘:概念与技术[M]. 北京: 高等教育出版社, 2001.
[2] 谢邦昌. 数据挖掘Clementine应用实务[M]. 北京: 机械工业出版社, 2008.
[3] Tan Pang-Ning, Steinbach Michael, Kumar Vipin. 数据挖掘导论:完整版 [M]. 北京: 人民邮电出版社, 2011.
[4] 高建煌. 个性化推荐系统技术与应用[D]. 中国科学技术大学计算机应用技术, 2010.
[收稿日期]2013-04-12
[作者简介]聂飞霞(1979—), 女,馆员,硕士,西北大学图书馆,研究方向为数据挖掘;付敏 (1978—), 女,馆员,硕士,西北大学图书馆,研究方向为参考咨询.