本书对数据挖掘的基本算法进行了系统介绍,不仅介绍了每种算法的基本原理,而且配有大量例题以及源代码,并对源代码进行了分析。这种理论与实践相结合的方式有助于读者较好地理解和掌握抽象的数据挖掘算法。 全书共11章,内容涵盖了数据预处理、关联规则挖掘算法、分类算法和聚类算法,具体章节包括绪论、数据预处理、关联规则挖掘、决策树分类算法、贝叶斯分类算法、人工神经网络算法、支持向量机、Kmeans聚类算法、K中心点聚类算法、神经网络聚类算法:SOM,以及数据挖掘的发展等内容。 本书可作为高等院校数据挖掘课程的教材,也可作为从事数据挖掘工作以及其他相关工程技术工作人员的参考书。
本书主要特色是理论与实践相结合。全书不仅对数据挖掘常见算法的基本原理进行了详细而系统的介绍,而且给出了其实现的源代码和运行结果界面,读者可以通过算法的源程序来深入理解算法的原理,这种理论与实践相结合的方式,使读者可以非常容易理解数据挖掘各个常见算法的含义,达到学以致用的目的。
对常见的数据挖掘算法,本书均以例题的方式进行了应用说明,并且对各算法的优缺点进行了总结,给出了各种算法的具体应用领域,这种方式可以很好地使读者理解算法的原理和应用。
数据挖掘涉及数据库技术、人工智能、统计学、机器学习等多学科领域,并且已经在各行各业有了非常广泛的应用。为适应我国数据挖掘的教学工作,作者在数据挖掘教学实践的基础上,参阅了多种国内外最新版本的教材,编写了本书。本书可以作为高等院校研究生的教材,也可以为相关行业的工程技术人员提供有益的参考。
本书在第2版的基础上对其中欠妥之处进行了修改,内容安排和第2版一致,循序渐进地对数据挖掘原理进行了通俗易懂的讲解,并更新了部分思考题、增加了微课视频,读者通过扫描二维码即可观看相关知识点的讲解,更加方便读者学习和理解。本书最大的特点是理论与实践相结合,全书几乎所有的算法都配有实例和源程序,这种理论与实践相结合的方法克服了重理论、轻实践的内容组织方式,便于读者理解和掌握其中知识。具体而言,本书11章内容之间的关系如下图所示。
本书配有教学课件,读者可登录www.tup.com.cn网站自行下载。
由于编者水平有限,本书难免存在缺点和不足之处,恳请专家和读者批评指正。
编者
2023年9月
第1章绪论1
1.1数据挖掘的概念1
1.2数据挖掘的历史及发展1
1.3数据挖掘的研究内容及功能5
1.3.1数据挖掘的研究内容5
1.3.2数据挖掘的功能6
1.4数据挖掘的常用技术及工具9
1.4.1数据挖掘的常用技术9
1.4.2数据挖掘的工具12
1.5数据挖掘的应用热点13
1.6小结15
思考题15第2章数据预处理16
2.1数据预处理的目的16
2.2数据清理18
2.2.1填充缺失值18
2.2.2光滑噪声数据18
2.2.3数据清理过程19
2.3数据集成和数据变换20
2.3.1数据集成20
2.3.2数据变换21
2.4数据归约23
2.4.1数据立方体聚集23
2.4.2维归约23
2.4.3数据压缩24
2.4.4数值归约25
2.4.5数据离散化与概念分层28
2.5特征选择与提取31
2.5.1特征选择31
2.5.2特征提取32
2.6小结33
思考题34第3章关联规则挖掘35
3.1基本概念35
3.2关联规则挖掘算法Apriori算法原理36
3.3Apriori算法实例分析38
3.4Apriori算法源程序分析41
3.5Apriori算法的特点及应用49
3.5.1Apriori算法特点49
3.5.2Apriori算法应用50
3.6小结51
思考题51第4章决策树分类算法53
4.1基本概念53
4.1.1决策树分类算法概述53
4.1.2决策树分类算法步骤53
4.2决策树分类算法ID3算法原理55
4.2.1ID3算法原理55
4.2.2熵和信息增益56
4.2.3ID3算法58
4.3ID3算法实例分析59
4.4ID3算法源程序分析63
4.5ID3算法的特点及应用70
4.5.1ID3算法特点70
4.5.2ID3算法应用71
4.6决策树分类算法C4.5算法原理71
4.6.1C4.5算法71
4.6.2C4.5算法的伪代码73
4.7C4.5算法实例分析74
4.8C4.5算法源程序分析76
4.9C4.5算法的特点及应用98
4.9.1C4.5算法特点98
4.9.2C4.5算法应用98
4.10小结99
思考题99第5章贝叶斯分类算法100
5.1基本概念100
5.1.1主观概率100
5.1.2贝叶斯定理101
5.2贝叶斯分类算法原理1082
5.2.1朴素贝叶斯分类模型102
5.2.2贝叶斯信念网络104
5.3贝叶斯算法实例分析107
5.3.1朴素贝叶斯分类器107
5.3.2贝叶斯信念网络应用109
5.4贝叶斯算法源程序分析111
5.5贝叶斯算法特点及应用116
5.5.1朴素贝叶斯分类算法116
5.5.2贝叶斯信念网117
思考题118第6章人工神经网络算法119
6.1基本概念119
6.1.1生物神经元模型119
6.1.2人工神经元模型120
6.1.3主要的神经网络模型121
6.2BP算法原理123
6.2.1Delta学习规则的基本原理123
6.2.2BP神经网络的结构123
6.2.3BP神经网络的算法描述124
6.2.4标准BP神经网络的工作过程126
6.3BP算法实例分析127
6.4BP算法源程序分析131
6.5BP算法的特点及应用139
6.5.1BP算法特点139
6.5.2BP算法应用141
6.6小结141
思考题141第7章支持向量机143
7.1基本概念143
7.1.1支持向量机理论基础143
7.1.2统计学习核心理论143
7.1.3学习过程的一致性条件143
7.1.4函数集的VC维144
7.1.5泛化误差界145
7.1.6结构风险最小化归纳原理145
7.2支持向量机原理146
7.2.1支持向量机核心理论146
7.2.2最大间隔分类超平面146
7.2.3支持向量机实现147
7.2.4核函数分类150
7.3支持向量机实例分析151
7.4支持向量机的特点及应用153
7.4.1支持向量机的特点153
7.4.2支持向量机的应用154
7.5小结155
思考题155第8章Kmeans聚类算法156
8.1简介156
8.2Kmeans聚类算法原理156
8.3Kmeans聚类算法实例分析158
8.4Kmeans聚类算法源程序分析161
8.5Kmeans聚类算法的特点及应用167
8.5.1Kmeans聚类算法的特点167
8.5.2Kmeans聚类算法的应用168
8.6小结168
思考题169第9章K中心点聚类算法170
9.1简介170
9.2K中心点聚类算法原理170
9.3K中心点聚类算法实例分析171
9.4K中心点聚类算法源程序分析172
9.5K中心点聚类算法的特点及应用179
9.5.1K中心点聚类算法的特点179
9.5.2K中心点聚类算法的应用179
9.6小结179
思考题180第10章神经网络聚类算法SOM181
10.1简介181
10.2竞争学习算法基础181
10.2.1SOM网络的结构181
10.2.2SOM网络的原理182
10.3SOM算法原理184
10.3.1SOM网络的拓扑结构184
10.3.2SOM权值调整域185
10.3.3SOM网络运行原理186
10.3.4学习方法186
10.4SOM算法实例分析187
10.4.1问题描述187
10.4.2网络设计及学习结果188
10.4.3结果输出188
10.5SOM算法源程序分析189
10.6SOM算法的特点及应用198
10.6.1SOM算法的特点198
10.6.2SOM算法的应用198
10.7小结199
思考题199第11章数据挖掘的发展200
11.1Web数据挖掘200
11.1.1Web数据挖掘定义200
11.1.2Web数据挖掘分类200
11.1.3Web数据挖掘的数据源201
11.1.4Web数据挖掘中知识的分类203
11.1.5Web数据挖掘的关键问题204
11.2空间数据挖掘205
11.2.1空间数据挖掘的定义与特点205
11.2.2空间数据挖掘的体系结构205
11.2.3空间数据挖掘可获得的知识类型206
11.2.4空间数据挖掘的方法208
11.3流数据挖掘211
11.3.1流数据的特点211
11.3.2流数据挖掘关键技术211
11.3.3流数据挖掘的实际应用及前景213
11.4数据挖掘与可视化技术213
11.4.1什么是可视化213
11.4.2数据可视化技术分类215
11.4.3数据挖掘可视化技术的应用217
11.5小结218
思考题218参考文献219