Hadoop权威指南

出版时间：2011-6 出版社：清华大学出版社作者：Tom White 页数：600 译者：周敏奇,王晓玲,金澈清,钱卫宁,周傲英
Tag标签：无

前言

据2011年4月圣地亚哥大学公布的报告，2008年全球两千七百万台服务器处理的数据量已达9.57ZB。如何有效管理和高效处理这些海量数据已成为当前亟待解决的问题。另外，三大类海量数据——商业数据、科学数据、网页数据——的异构性(结构化数据、半结构化数据以及非结构化数据)又进一步加剧了海量数据处理的难度。2011年2月出版的《科学》杂志刊登专题“Special Online Collection: Dealing with Data”，围绕着目前各类数据量的激增展开讨论，认为海量数据的收集、维护和使用已成为科学研究的主要工作。对许多学科而言，海量数据处理意味着更严峻的挑战，然而更好地管理和处理这些数据也将会获得意想不到的收获。关系型数据库系统的研究在数据管理方面积累较多经验。20世纪70年代，关系模型的提出以及IBM System R 和伯克利Ingres的成功开发，证明了关系型数据库系统处理商业数据的优越性。20世纪80年代，由此模型派生出的IBM DB2，Sybase SQL Server、Oracle Database等以联机事务处理(OLTP)为主的数据库系统的蓬勃发展，使数据库系统得以充分的商业化。20世纪90年代，W. H. Inmon提出的整合历史数据，通过在线分析(OLAP)和数据挖掘等方法实现商业规划、决策支持等商业智能服务的数据仓库系统，为数据库系统的应用翻开了崭新的篇章。然而，面对当下的海量数据，这一近40年历史、一体适用(one size fits all)的数据库系统架构显得老态龙钟，力不从心，逐渐无法应对当前的需求。自从2003年以来，谷歌陆续发布GFS和MapReduce等高可扩展、高性能的分布式海量数据处理框架，并证明了该框架在处理海量网页数据时的优越性。该框架实现了更高应用层次的抽象，使用户无需关注复杂的内部工作机制，无需具备丰富的分布式系统知识及开发经验，即可实现大规模分布式系统的部署与海量数据的并行处理。Apache Hadoop开源项目克隆了这一框架，推出了Hadoop系统。该系统已受到学术界和工业界的广泛认可和采纳，并孵化出众多子项目(如Pig，Zookeeper和Hive等)，日益形成一个易部署、易开发、功能齐全、性能优良的系统。华东师范大学海量计算研究所从2006年开始从事海量数据方面的研究，且在集群(288核，40TB存储)上部署了Hadoop系统，并成功完成多项研究。多年来从事海量数据学术研究和项目实施的相关经历，使得我们对Hadoop系统及其开发有了较深入的理解和认识，并在Hadoop部署、调优和优化等方面积累了丰富的经验。2010年，Hadoop项目负责人Tom White的《Hadoop权威指南》出版第2版。这本书内容组织得很好，思路清晰，紧密结合了实际问题。

内容概要

　　本书从Hadoop的缘起开始，由浅入深，结合理论和实践，全方位地介绍Hadoop这一高性能处理海量数据集的理想工具。全书共16章，3个附录，涉及的主题包括：Haddoop简介；MapReduce简介；Hadoop分布式文件系统；Hadoop的I/O、MapReduce应用程序开发；MapReduce的工作机制；MapReduce的类型和格式；MapReduce的特性；如何构建Hadoop集群，如何管理Hadoop；Pig简介；Hbase简介；Hive简介；ZooKeeper简介；开源工具Sqoop，最后还提供了丰富的案例分析。
　　本书是Hadoop权威参考，程序员可从中探索如何分析海量数据集，管理员可以从中了解如何安装与运行Hadoop集群。

作者简介

作者：(美国)怀特 (Tom White) 译者：周敏奇 钱卫宁 金澈清 王晓玲怀特(Tom White)，从2007年以来，一直担任Apache Hadoop项目负责人。他是Apache软件基金会的成员之一，同时也是Cloudera的一名工程师。Tom为oreully网、java.net和IBM的developerWorks写过大量文章，并经常在很多行业大会上发表演讲。

书籍目录

第1章 初识Hadoop
　数据！数据！
　数据存储与分析
　与其他系统相比
　关系型数据库管理系统
　网格计算
　志愿计算
　1.3.4 Hadoop 发展简史
　Apache Hadoop和Hadoop生态圈
第2章 关于MapReduce
　一个气象数据集
　数据的格式
　使用Unix工具进行数据分析
　使用Hadoop分析数据
　map阶段和reduce阶段
　横向扩展
　合并函数
　运行一个分布式的MapReduce作业
　Hadoop的Streaming
　Ruby版本
　Python版本
　Hadoop Pipes
　编译运行
第3章 Hadoop分布式文件系统
　HDFS的设计
　HDFS的概念
　数据块
　namenode和datanode
　命令行接口
　基本文件系统操作
　Hadoop文件系统
　接口
　Java接口
　从Hadoop URL中读取数据
　通过FileSystem API读取数据
　写入数据
　目录
　查询文件系统
　删除数据
　数据流
　文件读取剖析
　文件写入剖析
　一致模型
　通过 distcp并行拷贝
　保持 HDFS 集群的均衡
　Hadoop的归档文件
　使用Hadoop归档文件
　不足
第4章 Hadoop I/O
　数据完整性
　HDFS的数据完整性
　LocalFileSystem
　ChecksumFileSystem
　压缩
　codec
　压缩和输入切分
　在MapReduce中使用压缩
　序列化
　Writable接口
　Writable类
　实现定制的Writable类型
　序列化框架
　Avro
　依据文件的数据结构
　写入SequenceFile
　MapFile
第5章 MapReduce应用开发
　配置API
　合并多个源文件
　可变的扩展
　配置开发环境
　配置管理
　辅助类GenericOptionsParser，Tool和ToolRunner
　编写单元测试
　mapper
　reducer
　本地运行测试数据
　在本地作业运行器上运行作业
　测试驱动程序
　在集群上运行
　打包
　启动作业
　MapReduce的Web界面
　获取结果
　作业调试
　使用远程调试器
　作业调优
　分析任务
　MapReduce的工作流
　将问题分解成MapReduce作业
　运行独立的作业
第6章 MapReduce的工作机制
　剖析MapReduce作业运行机制
　作业的提交
　作业的初始化
　任务的分配
　任务的执行
　进度和状态的更新
　作业的完成
　失败
　任务失败
　tasktracker失败
　jobtracker失败
　作业的调度
　Fair Scheduler
　Capacity Scheduler
　shuffle和排序
　map端
　reduce端
　配置的调优
　任务的执行
　推测式执行
　重用JVM
　跳过坏记录
　任务执行环境
第7章 MapReduce的类型与格式
　MapReduce的类型
　默认的MapReduce作业
　输入格式
　输入分片与记录
　文本输入
　二进制输入
　多种输入
　数据库输入(和输出)
　输出格式
　文本输出
　二进制输出
　多个输出
　延迟输出
　数据库输出
第8章 MapReduce的特性
　计数器
　内置计数器
　用户定义的Java计数器
　用户定义的Streaming计数器
　排序
　准备
　部分排序
　总排序
　二次排序
　联接
　map端联接
　reduce端联接
　边数据分布
　利用JobConf来配置作业
　分布式缓存
　MapReduce库类
第9章 构建Hadoop集群
　集群规范
　网络拓扑
　集群的构建和安装
　安装Java
　创建Hadoop用户
　安装Hadoop
　测试安装
　SSH配置
　Hadoop配置
　配置管理
　环境设置
　Hadoop守护进程的关键属性
　Hadoop守护进程的地址和端口
　Hadoop的其他属性
　创建用户帐号
　安全性
　Kerberos和Hadoop
　委托令牌
　其他安全性改进
　利用基准测试程序测试Hadoop集群
　Hadoop基准测试程序
　用户的作业
　云上的Hadoop
　Amazon EC2上的Hadoop
第10章 管理Hadoop
　HDFS
　永久性数据结构
　安全模式
　日志审计
　工具
　监控
　日志
　度量
　Java管理扩展(JMX)
　维护
　日常管理过程
　委任节点和解除节点
　升级
第11章 Pig简介
　安装与运行Pig
　执行类型
　运行Pig程序
　Grunt
　Pig Latin编辑器
　示例
　生成示例
　与数据库比较
　PigLatin
　结构
　语句
　表达式
　1.4.4 类型
　模式
　函数
　用户自定义函数
　过滤UDF
　计算UDF
　加载UDF
　数据处理操作
　加载和存储数据
　过滤数据
　分组与连接数据
　对数据进行排序
　组合和分割数据
　Pig实战
　并行处理
　参数代换
第12章 Hive
　1.1 安装Hive
　1.1.1 Hive外壳环境
　1.2 示例
　1.3 运行Hive
　1.3.1 配置Hive
　1.3.2 Hive服务
　1.3.3 Metastore
　1.4 和传统数据库进行比较
　1.4.1 读时模式(Schema on Read)vs.写时模式(Schema on
Write)
　1.4.2 更新、事务和索引
　1.5 HiveQL
　1.5.1 数据类型
　1.5.2 操作和函数
　1.6 表
　1.6.1 托管表(Managed Tables)和外部表(External Tables)
　1.6.2 分区(Partitions)和桶(Buckets)
　1.6.3 存储格式
　1.6.4 导入数据
　1.6.5 表的修改
　1.6.6 表的丢弃
　1.7 查询数据
　1.7.1 排序(Sorting)和聚集(Aggregating)
　1.7.2 MapReduce脚本
　1.7.3 连接
　1.7.4 子查询
　1.7.5 视图(view)
　1.8 用户定义函数(User-Defined Functions)
　1.8.1 编写UDF
　1.8.2 编写UDAF
第13章 HBase
　2.1 HBasics
　2.1.1 背景
　2.2 概念
　2.2.1 数据模型的“旋风之旅”
　2.2.2 实现
　2.3 安装
　2.3.1 测试驱动
　2.4 客户机
　2.4.1 Java
　2.4.2 Avro，REST，以及Thrift
　2.5 示例
　2.5.1 模式
　2.5.2 加载数据
　2.5.3 Web查询
　2.6 HBase和RDBMS的比较
　2.6.1 成功的服务
　2.6.2 HBase
　2.6.3 实例：HBase在Streamy.com的使用
　2.7 Praxis
　2.7.1 版本
　2.7.2 HDFS
　2.7.3 用户接口(UI)
　2.7.4 度量(metrics)
　2.7.5 模式设计
　2.7.6 计数器
　2.7.7 批量加载(bulkloading)
第14章 ZooKeeper
　安装和运行ZooKeeper
　示例
　ZooKeeper中的组成员关系
　创建组
　加入组
　列出组成员
　ZooKeeper服务
　数据模型
　操作
　实现
　一致性
　会话
　状态
　使用ZooKeeper来构建应用
　配置服务
　具有可恢复性的ZooKeeper应用
　锁服务
　生产环境中的ZooKeeper
　可恢复性和性能
　配置
第15章 开源工具Sqoop
　获取Sqoop
　一个导入的例子
　生成代码
　其他序列化系统
　深入了解数据库导入
　导入控制
　导入和一致性
　直接模式导入
　使用导入的数据
　导入的数据与Hive
　导入大对象
　执行导出
　深入了解导出
　导出与事务
　导出和SequenceFile
第16章 实例分析
　Hadoop 在Last.fm的应用
　Last.fm：社会音乐史上的革命
　Hadoop a Last.fm
　用Hadoop产生图表
　Track Statistics程序
　总结
　Hadoop和Hive在Facebook的应用
　概要介绍
　Hadoop a Facebook
　假想的使用情况案例
　Hive
　问题与未来工作计划
　Nutch 搜索引擎
　背景介绍
　数据结构
　Nutch系统利用Hadoop进行数据处理的精选实例
　总结
　Rackspace的日志处理
　简史
　选择Hadoop
　收集和存储
　日志的MapReduce模型
　关于Cascading
　字段、元组和管道
　操作
　Tap类，Scheme对象和Flow对象
　Cascading实战
　灵活性
　Hadoop和Cascading在ShareThis的应用
　总结
　在Apache Hadoop上的TB字节数量级排序
　使用Pig和Wukong来探索10亿数量级边的 网络图
　测量社区
　每个人都在和我说话：Twitter回复关系图
　degree(度)
　对称链接
　社区提取
附录A 安装Apache Hadoop
　先决条件
　安装
　配置
　本机模式
　伪分布模式
　全分布模式
附录B Cloudera’s Distribution for Hadoop
附录C 准备NCDC天气数据

章节摘录

版权页：插图：Hadoop起源于Nutch项目。我们曾尝试构建一个开源的Web搜索引擎，但是始终无法有效地将计算任务分配到多台(也就寥寥几台)计算机上。直到谷歌公司发表GFS和MapReduce的相关论文，我们的思路才清晰起来。他们设计的系统已可精准地解决我们在Nutch项目中面临的困境。因此，我们(两个半天工作制的人)也尝试重建这些系统，将其作为Nutch的一部分。我们成功地在20多台机器上运行了Nutch。但是我们很快就意识到，只有在几千台机器上运行Nutch才能够应付Web的超大规模，但这个工作量远远不是两个半天工作制的开发人员能搞定的。几乎就在那个时候，雅虎公司也对这项技术产生了浓厚的兴趣，并迅速组建了一支开发团队。我有幸成为其中一员。我们剥离了Nutch的分布式计算模块，将其称为Hadoop。在雅虎的帮助下，Hadoop很快就能够真正处理Web数据了。从2006年起，Tom White就对Hadoop贡献良多。我很早以前通过他的一篇非常优秀的有关Nutch的论文认识了他，在这篇论文中，他以一种优美的笔调清晰地阐述了深刻的想法。很快，我发现他开发的软件也同样优美且易于理解。Tom从一开始就乐于站在用户和项目的角度来考虑问题。与其他开源程序开发人员不同，Tom不会刻意调整系统使其更加符合他个人的需要，而是尽可能地让所有用户用起来都很方便。Tom最初专注于如何让Hadoop在亚马逊的EC2和S3服务上运行良好。之后，他转而解决更为广泛的难题，包括如何提高MapReduce API，如增加强网站，如何设计对象序列化框架，等等。在所有工作中，Tom都非常精准地阐明了想法。在很短的时间里，Tom进入了Hadoop委员会，并在不久之后成为Hadoop项目管理委员会的一员。现在，Tom是一个受人尊敬的Hadoop开发社区的高级成员。尽管他是这个项目多个技术领域的专家，但他的专长是使Hadoop易于理解和使用。因此，当我得知Tom有意写一本关于Hadoop的书时，我非常高兴。是的，谁能够比他更胜任呢？现在，你们有机会向这位大师学习Hadoop——不单单是技术，也包括一些常识和通俗的笔调。

媒体关注与评论

“有了这本权威指南，读者有机会通过大师的手笔来学习Hadoop——在掌握技术的同时，领略作者的睿智和清晰的文风。”　　——Hadoop创始人 Doug Cutting于Cloudera

编辑推荐

《Hadoop权威指南(第2版)(修订•升级版)》编辑推荐：Google帝国的基石是什么？MapReduce算法！开源项目Hadoop作为它的一个具体实现，可以轻松用于构建和维护一个可靠性高、伸缩性强的分布式系统。作者Tom White作为Hadoop的项目负责人，通过自己对Hadoop和Hadoop社区的理解，化繁为简，用浅显易懂的语言介绍了Hadoop能做什么，怎么做才能充分发挥Hadoop的优势，Hadoop能够和哪些开源工具结合使用。《Hadoop权威指南（第2版）》是一本主题丰富、讲解透彻的权威参考书，可帮助程序员了解分析海量数据集的细枝末节，帮助管理员掌握搭建和运行Hadoop集群的具体过程。经过修订和更新的第2版概述了Hadoop的最新动态，例如Hive、sqoop和Avro等。书中还提供了案例分析来帮助读者了解如何用Hadoop来解决具体的问题。如果想充分利用数据，从中挖掘出有价值的见解或者观点，毫无疑问，《Hadoop权威指南(第2版)(修订•升级版)》将是您不可或缺的重要参考。“谁说大象不能跳舞？Hadoop-轻松应对海量数据存储与分析所带来的挑战！”使用Hadoop分布式文件系统（HDFS）来存储大型数据集，然后用MapReduce对这些数据II执行分布式计算。Hadoop的数据和I/O构建块（用于压缩、数据完整性、序列化和持久处理）。探究MapReduce应用开发中常见的陷阱和高级特性。设计，构建和管理Hadoop专用集群或在云上运行Hadoop。使用Pig这种高级的查询语言来进行大规模数据处理。使用Hive（Hadoop的数据仓库系统）来分析数据集。使用HBase（Hadoop的数据库）来处理结构化数据和半结构化数据。深入介绍Zookeeper，一个用于构建分布式系统的协作类型工具箱。Cloudera是一家行业领先的Hadoop软件和服务供应商。Cloudera's Distribution forHadoop （CDH）是一个基于Apache Hadoop的综合性数据管理平台，Cloudera Enterprise则包括一些工具、平台和支持，供生产环境中使用Hadoop时使用。

图书封面

图书标签Tags

无

评论、评分、阅读与下载

还没读过(83)
勉强可看(604)
一般般(103)
内容丰富(4272)
强力推荐(350)

Hadoop权威指南 PDF格式下载

用户评论 (总计163条)

海量数据处理是时代的趋势，hadoop是众多开源框架中最火的一款，有大量的实际应用项目。
我看这本书就是为了学习，寻找一新职位，从事海量数据分析处理工作。
啊，数据才是王道
本书结合理论和实践，深入浅出地、全面地介绍了Hadoop这一高性能的大数据处理和分析工具，与同类书相比，本书确实具有权威性，是学习Hadoop的必备工具书。
2011年6月29日，雅虎与风投将成立霍顿公司，广泛开展Hadoop业务。
雅虎使用Hadoop软件检测和挑出雅虎邮件服务中的**邮件。Facebook和eBay等许多互联网公司也使用Hadoop软件分析大量的数据，从而使Hadoop成为网站和移动设备产生数字信息爆炸式增长这一环境中一个非常有价值的工具。
分析师称，基于Hadoop软件的产品市场在未来几年里的规模将达到数十亿美元。
再看看国内，在中国移动，Hadoop已经成为一个重要的数据挖掘工具，中国移动已经把Hadoop的群用来进行闭环的数据挖掘，和传统算法的数据挖掘性能相比，有很大的提升，而且成本非常低。中国移动也在整个工业界开始推动大云和Hadoop的应用，比如在北京、天津等的高新技术区，安装了大云平台，可以为政府在高新技术开发区的企业提供云计算服务；其次在北邮、中科院计算所等高校和科研院所，也在开始安装大云的平台；再有与诺西（即诺基亚-西门子）网络、阿尔卡特等企业探讨在他们的产品中使用云计算平台；最后还和国内主流提供培训企业合作来培训和推广云计算的技术。
在国内，Hadoop招聘的google搜索在0.29秒时间内，就得到53.4万条结果。Hadoop人才抢手。
hadoop权威指南（第2版）修订升级版
本书是很多国内外很多Hadoop书籍的参考来源，是最权威的、最详尽（实例除外）的Hadoop教材。讲的很深，从编程开发，系统部署，系统调优到Hadoop生态系统相关产品的介绍都有涵盖。希望国内尽快出版第三版，以跟得上Hadoop 0.21以上版本API和新的fea***e加入的步伐~
Hadoop权威指南（第2版）比第一版强了不少，修改了不少错误。
这本书很好，但是对HBASE介绍的还是少了点，相对于另外一本hadoop In action 来说写的内容更多，更全面
hadoop in action 初学者还是要看看，上面介绍了一些道理，也便于你以后深入学习，看完hadoop实战再来看这一本，理解比较快了
尽管比较有名气，但毕竟是翻译的，多少有点读起来不顺口。但讲的内容确实不错，前几章的理论讲的有点多，就显的有点冗余了。也许是翻译的原因，废话有点多。但可以体会出作者是为了让更多读者看明白。之后又买了本薄的看的。初学者建议看实战hodoop或者hadoop开源云计算一类的书比较容易上手，后期看这本书比较好。
非常不错的Hadoop权威指南
Hadoop权威指南，hadoop中的经典之作
现在分布式是热门，这本书算是hadoop比较出名的
这本书比较实用，知识很全面,是hadoop的权威书籍
这年头谁不看hadoop都不好意思出门跟人家说大数据。
Hadoop驾驭大数据，非常好
努力学习hadoop，决战大数据时代
hadoop大数据
书的印刷质量很好，内容很有深度，对利用hadoop进行数据挖掘人员来说是非常好的参考书。
奥莱利的书，向来很好。开源的Hadoop，更新太快，书里面的使用版本已经老了。
对hadoop仰慕很久，这本书给了全面的指导，可能理论还是有一些深。。。需要先看看陆嘉恒的《Hadoop实战》（第2版）后会更好理解一些。。。
学习hadoop的不二之选，作为工具学习的书很不错，刚开始学没有基础的还是需要一本更基础的配合看。总的来说，值得拥有。
Hadoop真正的权威！和英文版对比起来阅读很有收获！不过真正落到项目中还有很多路要走！
内容如其书名，hadoop的权威写的权威的书。
最关键的一点，翻译的还不错。内容，个人需要不同，对他评价也就各不一样。对我来说，算是给我一个对hadoop的整体性了解，但是我关注的一些方面，在这本书上并没有很深入的介绍。总体来说，很满意。
安装配置hadoop的时候买的，觉得很有帮助，基本上按照书上的步骤就能搭建成功，谢谢！
早就想学hadoop了，看到这本书觉得很不错，是大师作品，讲解全面，涉及广而不浅，值得购买
内容不错哈！如果能出Hadoop 2.0版的继续卖哈！
不错的一本书，根据本书可以熟悉了解hadoop
作为现在最热门的hadoop的指南，可以给大家很多帮助
觉得不容易上手，对HADOOP本身介绍的不够全面系统，或许是因为我是新手
对hadoop比较全面的介绍，包括搭建，优化，debug，挺不错的
big data处理的经典之作，hadoop入门必读
云计算方兴未艾，Hadoop不可或缺，这本书对Hadoop的介绍还不错
hadoop相关的书很久之前就想买了，一直没这种时间和机会，最近的项目中会涉及到，今天终于如愿以偿买了，其他地方没这边书，在当当上买到了，很高兴很给力啊！
虽然纸张,封面不够好.
但是书是本好书.
能大概了解一下hadoop.
读了一章，讲的不错，hadoop必备
为技术储备参考买的，暂时没用过hadoop
hadoop介绍的很详细
hadoop知识介绍的很全面，既可深入学习，同时也可作为工具书查阅。
这本书很适合，hadoop软件开发人员的学习
这本书我配合hadoop实战看的，两本书一起看才有效果，当然只是个人看法另外，当当网发货速度确实很快
如果你想要学习Hadoop，那么这本书对于你来说她将是一本一本不可多得的书
这本书超级棒，可以说是研究hadoop的必读书目啦，从销售量上就可见一斑，好书！
很好的一本书，学习hadoop很有帮忙，虽然翻译得还有些瑕疵
感觉很好正是我想要的那本书，但是我建议第一本先看hadoop实战
这本书是我看到的最为详尽的hadoop书籍，几乎涵盖了所有内容。对第一版的内容有所更新，赞一个。对正在研究hadoop的朋友是不错的选择。
Hadoop目前所出版的书中最好的一本，希望国内尽快跟进新版！
很好的一本用来学习hadoop的书籍可以作为计算机专业的学生的辅导书
学习hadoop的必备的东西
做为hadoop入门必备的书籍
hadoop是个很好的框架，学好后有很大的前途。可惜内容有很多都看不懂。。。
书写的很好，适合hadoop初学者，推荐购买！
hadoop不错的啊
hadoop 经典图书
学习Hadoop 比较全面！
学习hadoop必须看的书
Hadoop的好书
是理解Hadoop原理的一本好书，指引我们进一步阅读Hadoop源代码
hadoop入门学习
以前就听说过这本说，这才买来了终于~书的质量没的说，真的挺好。学习hadoop的入门书籍呵呵。
是我们目前看过的hadoop的书里面，最有价值的一本
云计算中，hadoop必备
Hadoop的绝对教材~
刚刚接触hadoop 作为工具书收藏
hadoop这块最佳书籍
讲解著名的hadoop的经典的书
好书，学习Hadoop必备
非常好的书。学习hadoop的好书。
hadoop必备
开始学习Hadoop，希望将来能在云计算方面有所建树
学习hadoop的必备书籍
挺好的，为数不多的hadoop啊，
经典的HADOOp书
正品，书很好，是学习hadoop必备的
服务器大规模数据处理，mapreduce在google三大论文上看到的，还有一致性哈希，，
不错. MapReduce 说的很清楚
目前我只关心zookeeper和HBase两个章节，不过浏览到其他内容发现也介绍的很详实。唯一的问题是翻译教材的人还是应该自己揣摩用词才比较好，比如说“集群”书中会翻译成“集合体”，感觉不够专业，此类翻译问题会让很多读者产生不爽
权威的我看就2本，这个是最的，轻松应对海量数据
讲得很全面，很透彻，简单易懂。不愧为权威指南。
不过里的天气数据的例子，很不喜欢，要是直接选个
互联网应用的例子讲解，会更好
本书前部分将的分布式文件系统的理论，后面讲解了如何使用，以及几个框架的使用，书中代码java为主，还有C++，python
专业书籍，海量书籍处理，你懂得
建议先看完MongoDB权威指南后再看，升级必备。
不愧是权威指南，书很好，很实用，现在出第三版了，可是国内没有纸质版~！
google和Facebook采用的开源项目，足够的说服力证明系统的优越性。新手和老手，都值得学习参考。刚拿到书，研读中谢谢在UCWeb的好友——子鸿——的推荐！这里转推荐给致力于提高服务器效率的朋友们！
大数据处理必读，经典
权威的指南，非常细节，
不愧是权威指南，性价比也很高
书如其名，果然是权威指南
开始接触分布式的时候读的书，可以帮助了解大概的情况。
由于目前市场很多对分布式和云计算的要求不断增加，想找本书提高提高自己，经过推荐和查看评论，这本书相对不错，拿到手了，兴奋中。。。。。。
很快就收到了，很喜欢，学习分布式很不错的一本书
非常经典哦，大数据，数据挖掘必知
好书，译的也不错，看过以后有收获，想在分布式计算领域有收获的朋友推荐阅读
正好现在需要分布式存储和计算！学习实战中!
确实权威，给予我很大的帮助，对于有需要的人那是太有用了。
确实是权威，需要好好研究研究
果真权威
权威专业用书，不错，学习有帮助
hadhoop权威，还没仔细看呢，等有空看看
权威专业用书，不错，很有用
非常适合当工具书,另外也是不错的学习材料,云计算程序员必备的.

Hadoop权威指南

用户评论 (总计163条)

推荐图书

相关图书