首页

《Hadoop实战_第2版》PDF版本下载

标签:Hadoop实战,sshd服务,MapReduce计算模型,MapFile类,HDFS详解     发布时间:2016-12-21   
  • 云盘下载:
  • [提取码:0000]
  • 本地下载:
       ( 需积分:2  )

一、目录介绍

Hadoop实战_第2版副本.jpg

第1章  Hadoop简介
1.1    什么是Hadoop2
1.1.1  Hadoop概述2
1.1.2  Hadoop的历史2
1.1.3  Hadoop的功能与作用2
1.1.4  Hadoop的优势3
1.1.5  Hadoop应用现状和发展趋势3
1.2    Hadoop项目及其结构3
1.3    Hadoop体系结构6
1.4    Hadoop与分布式开发7
1.5    Hadoop计算模型—MapReduce10
1.6    Hadoop数据管理10
1.6.1  HDFS的数据管理10
1.6.2  HBase的数据管理12
1.6.3  Hive的数据管理13
1.7    Hadoop集群安全策略15
1.8    本章小结17

第2章  Hadoop的安装与配置
2.1    在Linux上安装与配置Hadoop20
2.1.1  安装JDK1.620
2.1.2  配置SSH免密码登录21
2.1.3  安装并运行Hadoop22
2.2    在MacOSX上安装与配置Hadoop24
2.2.1  安装Homebrew24
2.2.2  使用Homebrew安装Hadoop25
2.2.3  配置SSH和使用Hadoop25
2.3    在Windows上安装与配置Hadoop25
2.3.1  安装JDK1.6或更高版本25
2.3.2  安装Cygwin25
2.3.3  配置环境变量26
2.3.4  安装sshd服务26
2.3.5  启动sshd服务26
2.3.6  配置SSH免密码登录26
2.3.7  安装并运行Hadoop26
2.4    安装和配置Hadoop集群27
2.4.1  网络拓扑27
2.4.2  定义集群拓扑27
2.4.3  建立和安装Cluster28
2.5    日志分析及几个小技巧34
2.6    本章小结35

第3章  MapReduce计算模型
3.1    为什么要用MapReduce37
3.2    MapReduce计算模型38
3.2.1  MapReduceJob38
3.2.2  Hadoop中的HelloWorld程序38
3.2.3  MapReduce的数据流和控制流46
3.3    MapReduce任务的优化47
3.4    Hadoop流49
3.4.1  Hadoop流的工作原理50
3.4.2  Hadoop流的命令51
3.4.3  两个例子52
3.5    HadoopPipes54
3.6    本章小结56

第4章  开发MapReduce应用程序
4.1    系统参数的配置58
4.2    配置开发环境60
4.3    编写MapReduce程序60
4.3.1  Map处理60
4.3.2  Reduce处理61
4.4    本地测试62
4.5    运行MapReduce程序62
4.5.1  打包64
4.5.2  在本地模式下运行64
4.5.3  在集群上运行64
4.6    网络用户界面65
4.6.1  JobTracker页面65
4.6.2  工作页面65
4.6.3  返回结果66
4.6.4  任务页面67
4.6.5  任务细节页面67
4.7    性能调优68
4.7.1  输入采用大文件68
4.7.2  压缩文件68
4.7.3  过滤数据69
4.7.4  修改作业属性71
4.8    MapReduce工作流72
4.8.1  复杂的Map和Reduce函数72
4.8.2  MapReduceJob中全局共享数据74
4.8.3  链接MapReduceJob75
4.9    本章小结77

第5章  MapReduce应用案例
5.1    单词计数80
5.1.1  实例描述80
5.1.2  设计思路80
5.1.3  程序代码81
5.1.4  代码解读82
5.1.5  程序执行83
5.1.6  代码结果83
5.1.7  代码数据流84
5.2    数据去重85
5.2.1  实例描述85
5.2.2  设计思路86
5.2.3  程序代码86
5.3    排序87
5.3.1  实例描述87
5.3.2  设计思路88
5.3.3  程序代码89
5.4    单表关联91
5.4.1  实例描述91
5.4.2  设计思路92
5.4.3  程序代码92
5.5    多表关联95
5.5.1  实例描述95
5.5.2  设计思路96
5.5.3  程序代码96
5.6    本章小结98

第6章  MapReduce工作机制
6.1    MapReduce作业的执行流程100
6.1.1  MapReduce任务执行总流程100
6.1.2  提交作业101
6.1.3  初始化作业103
6.1.4  分配任务104
6.1.5  执行任务106
6.1.6  更新任务执行进度和状态107
6.1.7  完成作业108
6.2    错误处理机制108
6.2.1  硬件故障109
6.2.2  任务失败109
6.3    作业调度机制110
6.4    Shuffle和排序111
6.4.1  Map端111
6.4.2  Reduce端113
6.4.3  shuffle过程的优化114
6.5    任务执行114
6.5.1  推测式执行114
6.5.2  任务JVM重用115
6.5.3  跳过坏记录115
6.5.4  任务执行环境116
6.6    本章小结117

第7章  HadoopIO操作
7.1    IO操作中的数据检查119
7.2    数据的压缩126
7.2.1  Hadoop对压缩工具的选择126
7.2.2  压缩分割和输入分割127
7.2.3  在MapReduce程序中使用压缩127
7.3    数据的IO中序列化操作128
7.3.1  Writable类128
7.3.2  实现自己的Hadoop数据类型137
7.4    针对Mapreduce的文件类139
7.4.1  SequenceFile类139
7.4.2  MapFile类144
7.4.3  ArrayFile、SetFile和BloomMapFile146
7.5    本章小结148

第8章  下一代MapReduce:YARN
8.1    MapReduceV2设计需求150
8.2    MapReduceV2主要思想和架构151
8.3    MapReduceV2设计细节153
8.4    MapReduceV2优势156
8.5    本章小结156

第9章  HDFS详解
9.1    Hadoop的文件系统158
9.2    HDFS简介160
9.3    HDFS体系结构161
9.3.1  HDFS的相关概念161
9.3.2  HDFS的体系结构162
9.4    HDFS的基本操作164
9.4.1  HDFS的命令行操作164
9.4.2  HDFS的Web界面165
9.5    HDFS常用JavaAPI详解166
9.5.1  使用HadoopURL读取数据166
9.5.2  使用FileSystemAPI读取数据167
9.5.3  创建目录169
9.5.4  写数据169
9.5.5  删除数据171
9.5.6  文件系统查询171
9.6    HDFS中的读写数据流175
9.6.1  文件的读取175
9.6.2  文件的写入176
9.6.3  一致性模型178
9.7    HDFS命令详解179
9.7.1  通过distcp进行并行复制179
9.7.2  HDFS的平衡180
9.7.3  使用Hadoop归档文件180
9.7.4  其他命令183
9.8    WebHDFS186
9.8.1  WebHDFS的配置186
9.8.2  WebHDFS命令186
9.9    本章小结190

第10章  Hadoop的管理
10.1    HDFS文件结构192
10.2    Hadoop的状态监视和管理工具196
10.2.1  审计日志196
10.2.2  监控日志196
10.2.3  Metrics197
10.2.4  Java管理扩展199
10.2.5  Ganglia200
10.2.6  Hadoop管理命令202
10.3    Hadoop集群的维护206
10.3.1  安全模式206
10.3.2  Hadoop的备份207
10.3.3  Hadoop的节点管理208
10.3.4  系统升级210
10.4    本章小结212

第11章  Hive详解
11.1    Hive简介214
11.1.1  Hive的数据存储214
11.1.2  Hive的元数据存储216
11.2    Hive的基本操作216
11.2.1  在集群上安装Hive216
11.2.2  配置MySQL存储Hive元数据218
11.2.3  配置Hive220
11.3    HiveQL详解221
11.3.1  数据定义(DDL)操作221
11.3.2  数据操作(DML)231
11.3.3  SQL操作233
11.3.4  HiveQL使用实例235
11.4    Hive网络(WebUI)接口237
11.4.1  Hive网络接口配置237
11.4.2  Hive网络接口操作实例238
11.5    Hive的JDBC接口241
11.5.1  Eclipse环境配置241
11.5.2  程序实例241
11.6    Hive的优化244
11.7    本章小结246

第12章  HBase详解
12.1    HBase简介248
12.2    HBase的基本操作249
12.2.1  HBase的安装249
12.2.2  运行HBase253
12.2.3  HBaseShell255
12.2.4  HBase配置258
12.3    HBase体系结构260
12.3.1  HRegion260
12.3.2  HRegion服务器261
12.3.3  HBaseMaster服务器262
12.3.4  ROOT表和META表262
12.3.5  ZooKeeper263
12.4    HBase数据模型263
12.4.1  数据模型263
12.4.2  概念视图264
12.4.3  物理视图264
12.5    HBase与RDBMS265
12.6    HBase与HDFS266
12.7    HBase客户端266
12.8    JavaAPI267
12.9    HBase编程273
12.9.1  使用Eclipse开发HBase应用程序273
12.9.2  HBase编程275
12.9.3  HBase与MapReduce278
12.10   模式设计280
12.10.1 模式设计应遵循的原则280
12.10.2 学生表281
12.10.3 事件表282
12.11   本章小结283

第13章  Mahout详解
13.1    Mahout简介285
13.2    Mahout的安装和配置285
13.3    MahoutAPI简介288
13.4    Mahout中的频繁模式挖掘290
13.4.1  什么是频繁模式挖掘290
13.4.2  Mahout中的频繁模式挖掘290
13.5    Mahout中的聚类和分类292
13.5.1  什么是聚类和分类292

��