出版时间:2009-7 出版社:西南财经大学出版社 作者:李保坤,张丽娟 页数:136
Tag标签:无
内容概要
《数据挖掘教程》的文字内容主要参考了美国麻省理工学院的数据挖掘开放讲义、国外许多大学老师关于数据挖掘课程的教学资料以及网络上对有关算法的介绍材料。书中使用的数据均来自统计学教材或数据挖掘教材中使用的标准数据,数据分析结果和图形展示由作者自己制作的西南财经大学数据挖掘系统软件生成。
作者简介
李保坤,美国新墨新墨西哥州立大学博士,西南财经大学统计学院副教授,应用统计研究所副所长。
书籍目录
第一章 介绍1.1 这本书的读者对象1.2 什么是数据挖掘1.3 数据挖掘的用途1.4 数据挖掘的起源1.5 术语和注释1.6 数据集合的组织1.7 数据挖掘迅速发展的因素第二章 数据挖掘过程概览2.1 数据挖掘的核心思想2.2 有约束学习和无约束学习2.3 数据挖掘的步骤2.4 SEMMA2.5 预备阶段附录:数据分块方法2.6建立模型--线性回归的一个例子第三章 有约束学习--分类和预测3.1 一个分两类的分类法3.2 贝叶斯最小误差法则3.3 采用分类误差作为标准的分类方法评价3.4 不对称错误分类代价和贝叶斯风险3.5 分层采样和不对称代价3.6 推广到多于两类的情况3.7 提升图3.8 波士顿住房(两类)3.9 采用三分(Triage)策略的分类第四章 多元线性回归4.1 多元线性回归复习4.2 回归过程举例4.3 线性回归的自变量选择4.4 线性回归分析的一般步骤第五章 Logistic回归5.1 一个简单例子5.2 Logistic回归模型5.3 机会比(Odds Ratio)5.4 概率5.5 模型拟合的又一个例子附录A:回归系数的极大似然估计和置信区间计算附录B:使用西南财大数据挖掘系统对波士顿住宅区的数据处理第六章 神经网络6.1 神经元(一个数学模型)6.2 神经网络6.3 费歇尔(Fisher)的鸢尾花数据6.4 后向传播算法--分类6.5 调整网络用于预测6.6 多个区域最优和遍数6.7 过分拟合和训练遍数的选择6.8 结构的适应性选择6.9 成功应用的例子附录:使用西南财大数据挖掘系统的神经网络分类演示第七章 分类与回归树7.1 分类树7.2 递归分区7.3 骑乘式割草机7.4 剪枝7.5 最小误差树7.6 最佳剪枝树7.7 树的分类规则7.8 回归树附录:西南财大数据挖掘系统分类树介绍第八章 判别分析8.1 骑乘式割草机8.2 Fisher的线性判别函数8.3 贝叶斯线性分类函数8.4 距离度量8.5 分类误差8.6 鸢尾花的分类附录A:马氏距离附录B:西南财大数据挖掘系统的判别分析第九章 其他有约束学习方法9.1 K-最近邻点9.2 简单贝叶斯9.3 简单贝叶斯分类实例第十章 关联分析--关联法则10.1 发现交易数据库里的关联法则10.2 支持度和置信度10.3 增益和重要性10.4 相关系数和负关联法则10.5 先验算法10.6 缺点第十一章 数据精简和探索11.1 降维--主成分分析11.2 成年长子的头部测量数值11.3 主成分11.4 葡萄酒的特征11.5 数据标准化11.6 主成分和正交最小二乘第十二章 聚类分析12.1 什么是聚类分析?12.2 电力公司数据12.3 层次聚类法12.4 k-均值算法12.5 相似测度12.6 其他的距离测度附录:西南财大数据挖掘系统的聚类分析
章节摘录
第一章 介绍 1.1 这本书的读者对象 数据挖掘通常要涉及统计和机器学习(或者叫做人工智能)方面的算法。如果作者的目的只是让读者掌握数据挖掘的技术和工具的话,这类书籍因为缺乏详细的解释,因此对读者的指导作用就不会太强。另外也有许多关于数据挖掘算法比较专业的书籍,它们的对象是统计研究人员或者高年级的研究生,里面没有具体的商业案例分析,因此一般的读者会觉得太涩。有鉴于此,我们在写作此书时内容上主要突出了以下两个特色: (1)介绍分类、预测、数据精简等数据挖掘核心技术的基础理论和算法; (2)采用商业案例说明这些算法的使用。 另外,这本书在形式上和普通的书籍有一个显著的区别:它配备了一套演示各种算法的软件——西南财经大学数据挖掘系统,供读者理解数据挖掘思想、算法以及进行数据挖掘练习。
图书封面
图书标签Tags
无
评论、评分、阅读与下载