《数据挖掘算法与Clementine实践》主要介绍了几种最成熟的数据挖掘方法,并针对每种方法,介绍了应用最广泛的几种实现算法。书中以Clementine12.0为平台,用实例介绍了每种算法的具体应用。全书各章分别介绍了数据挖掘和Clementine软件、决策树分类方法(包括ID3、C4.5、C5.0、CART等算法)、聚类分析方法(包括K-Means算法和TwoStep算法)、关联规则挖掘方法(包括Apriori算法、CARMA算法和序列模式挖掘算法)、数据筛选算法(包括特征选择算法和异常检测算法)、回归分析方法(包括线性回归算法和二项Logistic回归)、神经网络构建方法(包括多层感知器网络、RBF网络以及Kohonen网络的构建算法)、时间序列分析方法(包括指数平滑法和ARIMA模型构建方法)。
21世纪是信息爆炸的时代。从纷杂无章的数据中发现潜在的知识,进而提供决策支持,是许多企业、部门增强自身竞争力的有力手段。数据挖掘作为重要的知识发现技术,经过几十年的发展,在理论上积累了丰硕的成果,许多高效的、智能的数据挖掘算法被提出并不断得到改进和完善。同时,专用的或者通用的数据挖掘工具也不断被推出和升级。因此,数据挖掘技术在电信、金融、信息安全等许多领域得到了广泛的应用。
本书在内容安排上以理论联系实际为指导原则。在理论上,着重介绍几种最成熟的数据挖掘方法,针对每种方法,则介绍应用最广泛的几种实现算法。在实践上,以Clementine 12.0为平台,用实例介绍每种算法的具体应用方法。
本书共分为9章。第1章和第2章分别对数据挖掘和Clementine软件进行简要的介绍。第3~9章中每章介绍一种数据挖掘方法。第3章介绍决策树分类方法,以及构建决策树的C4.5算法和CART算法;第4章介绍聚类分析方法,以及实现聚类分析的K-Means算法和TwoStep算法;第5章介绍关联规则挖掘方法,包括经典的Apriori算法、CARMA算法以及序列模式挖掘算法;第6章介绍了两种数据筛选算法,即特征选择算法和异常检测算法;第7章介绍了回归分析方法,包括线性回归方法和Logistic回归方法;第8章介绍了神经网络建模方法,以及用于构建神经网络的多层感知器方法、径向基函数网络构建方法和用于聚类分析的Kohonen网络构建方法;第9章介绍时间序列分析方法,包括指数平滑法和ARIMA模型的构建方法。
本书各章中的实验数据集可在http://jsjsyzx.znufe.edu.cn/downloads/dataset.rar下载。
本书得到中央高校基本科研业务费专项资金资助。
由于作者自身水平有限,本书定有不妥及不足之处,恳请读者及专家批评指正。
作 者
2008年5月
??
??
??
??
前言 III
第1章 数据挖掘概述
1.1 数据挖掘简介
1.2 数据挖掘过程
1.3 数据挖掘方法
1.4 数据挖掘工具及软件
第2章 clementine概述
2.1 clementine简介
2.2 clementine基本操作
第3章 决策树
3.1 分类与决策树概述
3.2 id3、c4.5与c5.0
3.3 cart
第4章 聚类分析
4.1 聚类分析概述
4.2 k-means算法
4.3 twostep算法
第5章 关联规则
5.1 关联规则概述
5.2 apriori算法
5.3 carma算法
5.4 序列模式
第6章 数据筛选
6.1 特征选择
6.2 异常检测
第7章 统计模型
7.1 线性回归
7.2 项logistic回归
第8章 神经网络
8.1 神经网络原理
8.2 多层感知器与rbf网络
8.3 kohonen网络
第9章 时间序列分析与预测
9.1 时间序列概述
9.2 指数平滑法
9.3 arima模型
参考文献