[摘 要 ] 本文以对商业银行信用卡历史客户数据为研究对象,介绍了数据挖掘方法中决策树.5算法和关联规则Apriori算法的应用,并通过weka软件进行实证分析,从而为银行信用卡客户信用程度评定提供了决策支持.
[关 键 词 ] 数据挖掘 决策树 关联规则
随着我国信用卡业务的不断发展,银行信用卡业务中存有的大量的客户信息已经构成了一个信息数据库,分析这些数据也不再是单纯为了研究的需要,更主要是为银行决策提供真正有价值的信息.信用卡额度的大小依赖于客户信用程度的高低,信用程度是依据申请人申请信用卡时所填写的资料和提供的相关证明文件综合评定核给的.银行对申请人的信用程度进行评定审核时,会考虑年龄、职业、存款、资产和住房等各种因素,并对每一项都按照一定的标准予以考核,银行在评估这些因素及相应风险以后就可以决定申请人的信用卡额度大小.
一、分类和决策树方法中的.5算法
1.基本概念
数据挖掘中分类的概念是在已有数据的基础上学会一个分类函数或构造出一个分类模型, 即所说的分类器(classifier).该函数或模型能够把数据库中的数据记录映射到给定类别中的某一个,从而用于预测.
决策树是利用一系列规则构建一棵树,它可高度自动化地建立起易于为用户所理解的模型,并且具有较好地处理缺省数据及带有噪声数据等能力.
不确定性的最佳评估方法是平均信息量,即信息熵(Entropy):
注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文