数据挖掘实用机器学习技术

出版时间：2006-3 出版社：机械工业出版社作者：Ian H.Witten,Eibe Frank 页数：362 译者：董琳,邱泉,于晓峰
Tag标签：无

内容概要

本书介绍数据挖掘的基本理论与实践方法。主要内容包括：各种模型(决策树，关联规则、线性模型、聚类、贝叶斯网以及神经网络)以及在实践中的运用，所存任缺陷的分析。安全地清理数据集、建立以及评估模型的预测质量的方法，并且提供了一个公开的数据挖掘工作平台Weka。Weka系统拥有进行数据挖掘仟务的图形用户界面，有助于理解模型，是一个实用并且深受欢迎的工具。    本书逻辑严密、内容翔实、极富实践性，适合作为高等学校本科生或研究生的教材，也可供相关技术人员参考。

作者简介

Ian H.Witten，新西兰怀卡托大学计算机科学系教授，ACM和新西兰皇（IFIP）颁发的Namur奖项。他的著作包括《Managing Gigabytes:Compressing and Indexing Documents and Images》、《How to Build a Digital Library》以及众多的期刊和学会文章。

书籍目录

出版者的话专家指导委员会译者序中文版前言序前言第一部分  机器学习工具与技术  第1章  绪论    1.l  数据挖掘和机器学习     l.2  简单的例子：天气问题和其他    l.3  应用领域-    1.4  机器学习和统计学    1.5  用于搜索的概括    l.6  数据挖掘和道德    1.7  补允读物  第2章  输入概念、实例和属性    2.1  概念    2.2  样本    2.3  属性      2.4  输入准备    2.5  补充读物  第3章  输出：知识表达    3.1  决策表    3.2  决策树    3.3  分类规则    3.4  关联规则    3.5  包含例外的规则    3.6  包含关系的规则    3.7  数值预测树    3.8  基于实例的表达    3.9  聚类    3.10  补充读物  第4章  算法基本方法    4.1  推断基本规则    4.2  统计建模    4.3  分治法：创建决策树    4.4  覆盖算法：建立规则    4.5  挖掘关联规州    4.6  线性模型    4.7  基于实例的学习    4.8  聚类    4.9  补充读物  第5章  可信度：评估机器学习结果    5.1  训练和测试    5.2  预测性能    5.3  交叉验证    5.4  其他估计法    5.5  可信度：评估机器学习结果    5.6  预测概率    5.7  计算成本    5.8  评估数值预测    5.9  最短描述长度原理    5.10  聚类方法中应用MDL原理    5.1l  补充读物  第6章  实现：真正的机器学习方案    ……  第7章  转换：处理输入和输出  第8章  继续扩展和应用  第9章  Weka简介  第10章  Explorer界面  第1l章  Knowledge Flow界面  第12章  Experimenter界面  第13章  命令行界面  第14章  嵌入式机器学习   第15章  编写新学习方案参考文献索引

章节摘录

　　第7章 转换：处理输入和输出　　在前一章中我们考察了大量的机器学习方法：决策树、决策规则、线性模型、基于实例的方案、数值预测技术、聚类算法以及贝叶斯网络。所有这些方法都是合理、成熟的技术，可用于解决实际的数据挖掘问题。　　但是成功的数据挖掘远不只是牵涉到选择某种学习算法并应用于数据。许多学习算法要用到各种不同的参数，需要选择合适的参数值。在多数情况下，选择适当的参数可以使所获结果得到显著改善，而合适的选择则是要视手头的具体数据而定的。例如，决策树可以选择修剪或不修剪，选择前者又需要选择修剪参数。在基于实例的k最近邻学习方法中，则需要选择k值。更为常见的，则是需要从现有的方案中选择学习方法本身。在所有情况下，合适的选择是由数据而决定的。　　在数据上试用几种不同的方法，并使用几种不同的参数值，然后观测哪种情况结果最好，是个诱人的方法。不过要当心！最佳选择并不一定是在训练数据上获得最好结果的那个。我们曾反复提醒要注意过度拟合问题，过度拟合是指一个学习模型与用于建模的某个具体训练数据集太过匹配。假设在训练数据上所表现的正确性能代表模型将来应用于实践中的新数据上的性能水准，这个想法是不正确的。　　所幸的是在第5章中已经讨论了对于这个问题的解决方法。有两种较好的方法可用来估计一个学习方法的预期真实性能表现：在数据源充足的情况下，使用一个与训练数据集分离的大数据集；在数据较少的情况下则使用交叉验证法（第5.3节）。在后一种情况下，在实践中的典型应用方法是单次的10折交叉验证，当然要得到更为可靠的估计需要将整个过程重复10次。一旦为学习方法选定了合适的参数，就可以使用整个训练集（即所有训练实例）来生成将要应用于新数据的最终学习模型。　　注意在调整过程中使用所选的参数值得到的性能表现并不是对最终模型性能的一个可靠估计，因为最终模型对于调整中使用的数据有过度拟合的倾向。要确定它的性能究竟如何，需要另外一个大的数据集，这个数据集须与学习过程和调整过程中所使用的数据隔离开来。在进行交叉验证时也是如此，参数调整过程需要一个“内部”交叉验证，误差估计还需要一个“外部”交叉验证。采用10折交叉验证法将使学习方法运行100次。总而言之，当评估一个学习方案的性能时，所进行的任何参数调整过程都应被看作是训练过程的一部分。　　当把机器学习技术应用于实际的数据挖掘问题时，还有其他一些重要程序可以大大提高成功率，这正是本章的主题。它们形成了一种（操纵）数据的技术，将输入数据设计成一种能适合所选学习方案的形式，将输出模型设计得更为有效。你可以把它们看成是能应用于实际的数据挖掘问题以提高成功几率的一些诀窍。有时奏效，有时无效。根据目前的技术发展水平来看，很难预言它们是否有用。在这种以尝试和误差率作为最为可靠的指导的领域中，特别重要的恐怕就是灵活运用并且理解这些诀窍了。　　……

编辑推荐

正如所有受到商业注目的新兴技术一样，数据挖掘的运用也是极其多样化的。言过其实的报导声称可以建立算法，在数据的海洋里发现秘密。但事实上机器学习中没有魔术，没有隐藏的力量，没有炼金术。有的只是一些可以将有用的信息从原始数据中提炼出来的清晰明了的实用技术。《数据挖掘实用机器学习技术》(原书第2版)叙述了这些技术并展示了它们是如何工作的。　　《数据挖掘实用机器学习技术》(原书第2版)对1999年的初版做了重大的改动。虽说核心概念没有变化，但《数据挖掘实用机器学习技术》(原书第2版)做了更新，反映出过去五年的变化。《数据挖掘实用机器学习技术》(原书第2版)提供了机器学习理论概念的完整基础，此外还对实际工作中应用的相关工具和技术提了一些建议。　　《数据挖掘实用机器学习技术》(原书第2版)逻辑严密、内容翔实、极富实践性，适合作为高等学校本科生或研究生的教材，也可供相关技术人员参考。

图书封面

图书标签Tags

无

评论、评分、阅读与下载

还没读过(27)
勉强可看(201)
一般般(343)
内容丰富(1422)
强力推荐(116)

数据挖掘实用机器学习技术 PDF格式下载

用户评论 (总计90条)

这本书涵盖了机器学习的大部分内容，浅显易懂，实例丰富，还有weka平台可以使用。适合入门级别的朋友们
这是一本数据挖掘的入门书，难度适中，很适合初级者学习和进步！非常值得推荐！！
数据挖掘方面挺经典的书！
学习数据挖掘的经典丛书，很不错
对学习数据挖掘很有帮助，看到了第五章已获益匪浅。正是需要的好东西。感谢作者和译者，感谢当当。
这本书是很不错的对数据挖掘的研究有一定的知道价值
学数据挖掘必看的，不用多说了吧
this book offer a lot help in how to use weka.
一本不错的书，理论结合实际应用，对机器学习的原理进行了系统全面的介绍，非常实用。
大数据真是大坑，加油吧
很实用的一本书，举得例子也比较多，很好，书的质量更好
书质量不错。。。，看了一部分了，比较容易理解，适合入门
刚收到书，跳着翻阅了一会，内容是挺不错的，让人舍不得放下。遗憾的是纸张太差，就像D版一样（机械工业出版社的都给我这样的感觉），还有不少错别字。不过工具书嘛，无所谓了，内容才是最重要的。
适合入门，只是想了解下机器学习
特地买的技术性教材，除掉理论部分，还有实际使用的知识，有用
不错！质量挺好的
应该会用的上，方法很多
书已经收到，还没有看，经典书，必须得看。
书很不错，同学一起买的！就是快递慢了点！
相当不错的书，经典，不解释
还没仔细开始看，但是应该是不错的书哦
书不错，写得比较简单易懂，但是翻译有点繁琐。
书不错，在实际中能使用
书不错，配送一般
这本书我在别的地方买不到。只能在这里买。很好很给力。
这是一本数据挖掘的入门书，难度适中，很适合初级者学习。
还没读来呵呵以后再看吧
要好好学！
还可以，入门级别
到手后感觉很好，正在看
给儿子买的，他说不错。
中文版很好
这本书虽然标题是Data Mining，但是核心内容还是机器学习。我理解“数据挖掘”主要指的还是KDD，即基于数据库的知识发现。在这个领域，基本的方法是聚类和关联规则发现；而在机器学习领域，主要研究的是分类。　　　　这本书的内容主要是分类，也有一部分聚类的内容，关联规则发现基本上没有讲。但它对分类讲的很详细，主要的思想都涉及到了，体系整理很好。它对相关的知识，如分类算法的性能估计，如何在分类中结合成本考虑等也做了详细的介绍。因此，认真读读这本书对于学好用好分类是很有帮助的。　　　　它的第二部分介绍了Weka这个机器学习框架的使用。用好这个框架能够帮助简化机器学习算法研究中的一些辅助工作，作用还是很大的。　　　　因此，推荐对机器学习，特别是分类有兴趣的同志们看看这本书。
书挺基础，介绍了开源的数据挖掘工具WEKA！！
内容不错，适合数据挖掘的入门书籍。
此书粗度一遍，收获很多，对于想了解数据挖掘，并想动手操作的同志来说，是非常值得一读的书，当然毕竟是翻译的，有些感觉比较晦涩..但还是可以接受的。
推荐一下！
结合英文版一起看会理解的更深刻一些。主要涉及机器学习，结合weka一起讲解。
后面Weka的讲解还算可以,但是前面算法介绍的太粗略了
书无论是包装还是内容都还是不错的，值得学习的人买来好好学习一下
书印刷质量很好，速度还可以
翻译的不错，很实用。翻译的也很准确
翻译的还可以，个人认为个别词还可以翻译的更容易理解些，作为学习材料已经很棒啦！
挺基础的，适合初学者，国外的书比国内的好很多
这本书快递很快很及时，内容看完之后追加吧~
涉及知识点广泛但介绍并不是很详细需要借助其他教材
我的写字台上持续摆放这三本书，有时拖本书床上看，然而这本书、这几本书都还是需要脑壳精密时读比较好，本书也有参考价值，可以一读。
书挺好，就是计费方式有点坑了。买本书，本来优惠一点，然后却要付运费了，实际上在变相赚钱啊。
外观看上去很不错，干净整洁。偏重理论！
非常好的书，就是有点艰涩难懂，到处都是抽象语言。
还不错，入门书；可以看看
好好还好还好佛啊佛啊哈佛噢噢噢噢噢噢噢噢哦哦哦哦哦哦哦哦哦
早就想买了，现在才狠下心来买它呵呵
到货很慢
很耐读可惜转行了,用不太着了
书没有仔细的看过，感觉讲的比较理论化，入门的书应该算，书的质量是不错的
纸张的质量没有想象中的好啊。。感觉不像正版呢。。。
记得看网上流传的英文原版电子书时，曾试图翻译它，书买到后才发现内容相当的深，没有数学基础读懂它恐怕有困难。现在已经不敢看了，看不懂啊！
翻译实在不感恭维啊.有些术语都翻译错了。ps:在译者序中,虽然说"本书的翻译"一定存在不少问题,还望各位读者多多批评指教".但是没留下联系方式啊.
当年毕业设计时买的书，可是太专业了
书发的很快，当当服务很好
刚送到，封面磨损的厉害。书的右上角折了个印子。哎，要抓紧时间看了。
数据挖掘实用机器学习技术（原书第2版）中文翻译不好
数据挖掘这本书，被压了两个深深的凹痕，很不舒服
为了学weka买的，但是远远达不到我希望的标准
和我想象的不一样，印刷质量也不好，如果去书店看过肯定不会买
这是一本经典的书，但是彻底的被这堆无良无能的翻译给毁了，翻译水平这不能叫做差！！！英文原版+翻译版。有些时候发现看英文比汉语好懂！！！
我看了一下实在看不下去，实在啰嗦，语言需要精简，不能看标题说是数据挖掘，学习技术，标题是牛但是书实在不怎么的。
粗略的看了一下，主要分两部分，第一部分是数据挖掘的一些基础知识和概念，第二部分着重介绍weka工具的使用
这本书编写的挺好的，印刷质量也好，就是纸的颜色黑了点，嘿嘿总体很很
这本和数据挖掘实用机器学习技术(原书第2版，哪个更好？
这书还是不错的，对一些算法的介绍都很清楚，算法也比较新。更重要的是介绍了一些weka的使用，这是很多地方都找不到的。可惜的是，对weka的介绍也还只是入门阶段的介绍，如果要用weka编程的建议还是自己看weka的源码。
这是数据挖掘方面较不错的书，之前先买机器学习导论，可惜一直缺货
书的质量没的说，关键是内容非常专业。。推荐一下。。
不错，虽然还没看，不过好多人推荐，应该不错
好书啊，主要是内容好
还可以吧，也没有仔细看
亚马逊的速度就是出奇的快！送货速度没得说。正版，全新，没问题。
非常不错，正在看，为了使用weka
满意。书的质量不错。
如果要学洗数据挖掘，这本书质量算是一般了！不建议买！
教材内容不错，但是直至有点差吧。。。
质量还行，就是国内翻译水平实在不敢恭维
适合入门看，里面算法将的不太细，有关于weka使用介绍
很好的学习入门书
机器学习理论
书很不错，就是发货太慢
书质量很好，速度也很快，很满意
经典书籍大家都知道的。
包装得很好
　　一会是查询偏差，一会是搜索偏差~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

数据挖掘实用机器学习技术

用户评论 (总计90条)

推荐图书

相关图书