返回

Cloudera_Hadoop大数据平台入门指南268页

搜索
推荐 最新 热门

Cloudera_Hadoop大数据平台入门指南268页

资料简介

内容分为18章,系统介绍Hadoop生态系统大数据相关的知识,包括大数据概述、ClouderaHadoop平台的安装部署、HDFS分布式文件系统、MapReduce计算框架、资源管理调度框架YARN、Hive数据仓库、数据迁移工具Sqoop、分布式数据库HBase、ZooKeeper分布式协调服务、准实时分析系统Impala、日志采集工具Flume、分布式消息系统Kafka、ETL工具Kettle、Spark计算框架等内容,最后给出两个综合实操案例,以巩固前面所学的知识点。

目录
第1章 大数据概述 8
1.1 大数据时代的数据特点 9
1.2 大数据时代的发展趋势——数据将成为资产 10
1.3 大数据时代处理数据理念的改变 11
1.3.1 要全体不要抽样 11
1.3.2 要效率不要绝对精确 11
1.3.3 要相关不要因果 11
1.4 大数据时代的关键技术 12
1.5 大数据时代的典型应用案例 13
1.5.1 塔吉特超市精准营销案例 13
1.5.2 谷歌流感趋势案例 13
1.5.3 证券行业案例 13
1.5.4 某运营商大数据平台案例 13
1.6 Hadoop概述和介绍 14
1.6.1 Hadoop发展历史和应用现状 14
1.6.2 Hadoop的特点 14
1.6.3 Hadoop的生态系统 14
第2章 Cloudera大数据平台介绍 15
2.1 Cloudera简介 16
2.2 Cloudera的Hadoop发行版CDH简介 17
2.2.1 CDH概述 17
2.2.2 CDH和Apache Hadoop对比 17
2.3 Cloudera Manager大数据管理平台介绍 18
2.3.1 Cloudera Manager概述和整体架构 18
2.3.2 Cloudera Manager的基本核心功能 18
2.3.3 Cloudera Manager的高级功能 18
2.4 Cloudera平台参考部署架构 19
2.4.1 Cloudera的软件体系结构 19
2.4.2 群集硬件规划配置 19
2.4.3 Hadoop集群角色分配 19
2.4.4 网络拓扑 19
第3章 Cloudera Manager及CDH离线安装部署 20
3.1 安装前的准备工作 21
3.2 Cloudera Manager及CDH安装 22
3.3 添加其他大数据组件 23
第4章 分布式文件系统HDFS 24
4.1 HDFS简介 25
4.2 HDFS体系结构 26
4.2.1 HDFS架构概述 26
4.2.2 HDFS命名空间管理 26
4.2.3 NameNode 26
4.2.4 SecondaryNameNode 26
4.3 HDFS 2.0新特性 27
4.3.1 HDFS HA 27
4.3.2 HDFS Federation 27
4.4 HDFS操作常用shell命令 28
4.4.1 HDFS目录操作和文件处理命令 28
4.4.2 HDFS的Web管理界面 28
4.4.3 dfsadmin管理维护命令 28
4.4.4 namenode命令 28
4.5 Java编程操作HDFS实践 29
4.6 HDFS的参数配置和规划 30
4.7 使用Cloudera Manager启用HDFS HA 31
4.7.1 HDFS HA高可用配置 31
4.7.2 HDFS HA高可用功能测试 31
第5章 分布式计算框架MapReduce 32
5.1 MapReduce概述 33
5.2 MapReduce原理介绍 34
5.2.1 工作流程概述 34
5.2.2 MapReduce框架的优势 34
5.2.3 MapReduce执行过程 34
5.3 MapReduce编程——单词示例解析 35
5.4 MapReduce应用开发 36
5.4.1 配置MapReduce开发环境 36
5.4.2 编写和运行MapReduce程序 36
第6章 资源管理调度框架YARN 37
6.1 YARN产生背景 38
6.2 YARN框架介绍 39
6.3 YARN工作原理 40
6.4 YARN框架和MapReduce1.0框架对比 41
6.5 CDH集群的YARN参数调整 42
第7章 数据仓库Hive 43
7.1 Hive简介 44
7.2 Hive体系架构和应用场景 45
7.2.1 Hive体系架构 45
7.2.2 Hive应用场景 45
7.3 Hive的数据模型 46
7.3.1 内部表 46
7.3.2 外部表 46
7.3.3 分区表 46
7.3.4 桶 46
7.4 Hive实战操作 47
7.4.1 Hive内部表操作 47
7.4.2 Hive外部表操作 47
7.4.3 Hive分区表操作 47
7.4.4 桶表 47
7.4.5 Hive应用实例WordCount 47
7.4.6 UDF 47
7.5 基于Hive的应用案例 48
第8章 数据迁移工具Sqoop 49
8.1 Sqoop概述 50
8.2 Sqoop工作原理 51
8.3 Sqoop版本和架构 52
8.4 Sqoop实战操作 53
第9章 分布式数据库HBase 54
9.1 HBase概述 55
9.2 HBase数据模型 56
9.3 HBase生态地位和系统架构 57
9.3.1 HBase的生态地位解析 57
9.3.2 HBase系统架构 57
9.4 HBase运行机制 58
9.4.1 Region 58
9.4.2 Region Server工作原理 58
9.4.3 Store工作原理 58
9.5 HBase操作实战 59
9.5.1 HBase常用shell命令 59
9.5.2 HBase编程实践 59
9.5.3 HBase参数调优的案例分享 59
第10章 分布式协调服务ZooKeeper 60
10.1 ZooKeeper的特点 61
10.2 ZooKeeper的工作原理 62
10.2.1 基本架构 62
10.2.2 ZooKeeper实现分布式Leader节点选举 62
10.2.3 ZooKeeper配置文件重点参数详解 62
10.3 ZooKeeper典型应用场景 63
10.3.1 ZooKeeper实现HDFS的NameNode高可用HA 63
10.3.2 ZooKeeper实现HBase的HMaster高可用 63
10.3.3 ZooKeeper在Storm集群中的协调者作用 63
第11章 准实时分析系统Impala 64
11.1 Impala概述 65
11.2 Impala组件构成 66
11.3 Impala系统架构 67
11.4 Impala的查询处理流程 68
11.5 Impala和Hive的关系和对比 69
11.6 Impala安装 70
11.7 Impala入门实战操作 71
第12章 日志采集工具Flume 72
12.1 Flume概述 73
12.2 Flume体系结构 74
12.2.1 Flume外部结构 74
12.2.2 Flume的Event事件概念 74
12.2.3 Flume的Agent 74
12.3 Flume安装和集成 75
12.3.1 搭建Flume环境 75
12.3.2 Kafka与Flume集成 75
12.4 Flume操作实例介绍 76
12.4.1 例子概述 76
12.4.2 第一步:配置数据流向 76
12.4.3 第二步:启动服务 76
12.4.4 第三步:新建空数据文件 76
12.4.5 第四步:运行flume-ng命令 76
12.4.6 第五步:运行命令脚本 76
12.4.7 最后一步:测试结果 76
第13章 分布式消息系统Kafka 77
13.1 Kafka架构设计 78
13.1.1 基本架构 78
13.1.2 基本概念 78
13.1.3 Kafka主要特点 78
13.2 Kafka原理解析 79
13.2.1 主要的设计理念 79
13.2.2 ZooKeeper在Kafka的作用 79
13.2.3 Kafka在ZooKeeper的执行流程 79
13.3 Kafka安装和部署 80
13.3.1 CDH5完美集成Kafka 80
13.3.2 Kafka部署模式和配置 80
13.4 Java操作Kafka消息处理实例 81
13.4.1 例子概述 81
13.4.2 第一步:新建工程 81
13.4.3 第二步:编写代码 81
13.4.4 第三步:运行发送数据程序 81
13.4.5 最后一步:运行接收数据程序 81
13.5 Kafka与HDFS的集成 82
13.5.1 与HDFS集成介绍 82
13.5.2 与HDFS集成实例 82
13.5.3 第一步:编写代码——发送数据 82
13.5.4 第二步:编写代码——接收数据 82
13.5.5 第三步:导出文件 82
13.5.6 第四步:上传文件 82
13.5.7 第五步:运行程序——发送数据 82
13.5.8 第六步:运行程序——接收数据 82
13.5.9 最后一步:查看执行结果 82
第14章 大数据ETL工具Kettle 83
14.1 ETL原理 84
14.1.1 ETL简介 84
14.1.2 ETL在数据仓库中的作用 84
14.2 Kettle简介 85
14.3 Kettle完整案例实战 86
14.3.1 案例介绍 86
14.3.2 最终效果 86
14.3.3 表说明 86
14.3.4 第一步:准备数据库数据 86
14.3.5 第二步:新建转换 86
14.3.6 第三步:新建数据库连接 86
14.3.7 第四步:拖动表输入组件 86
14.3.8 第五步:设置属性——order表 86
14.3.9 第六步:设置属性——user表 86
14.3.10 第七步:拖动流查询并设置属性——流查询 86
14.3.11 第八步:设置属性——product表 86
14.3.12 第九步:连接组件 86
14.3.13 第十步:设置属性——文本输出 86
14.3.14 最后一步:运行程序并查看结果 86
14.4 Kettle调度和命令 87
14.4.1 通过页面调度 87
14.4.2 通过脚本调度 87
14.5 Kettle使用原则 88
第15章 大规模数据处理计算引擎Spark 89
15.1 Spark简介 90
15.1.1 使用背景 90
15.1.2 Spark特点 90
15.2 Spark架构设计 91
15.2.1 Spark整体架构 91
15.2.2 关键运算组件 91
15.2.3 RDD介绍 91
15.2.4 RDD操作 91
15.2.5 RDD依赖关系 91
15.2.6 RDD源码详解 91
15.2.7 Scheduler 91
15.2.8 Storage 91
15.2.9 Shuffle 91
15.3 Spark编程实例 92
15.3.1 实例概述 92
15.3.2 第一步:编辑数据文件 92
15.3.3 第二步:编写程序 92
15.3.4 第三步:上传JAR文件 92
15.3.5 第四步:远程执行程序 92
15.3.6 最后一步:查看结果 92
15.4 Spark SQL实战 93
15.4.1 例子概述 93
15.4.2 第一步:编辑数据文件 93
15.4.3 第二步:编写代码 93
15.4.4 第三步:上传文件到服务器 93
15.4.5 第四步:远程执行程序 93
15.4.6 最后一步:查看结果 93
15.5 Spark Streaming实战 94
15.5.1 例子概述 94
15.5.2 第一步:编写代码 94
15.5.3 第二步:上传文件到服务器 94
15.5.4 第三步:远程执行程序 94
15.5.5 第四步:上传数据 94
15.5.6 最后一步:查看结果 94
15.6 Spark MLlib实战 95
15.6.1 例子步骤 95
15.6.2 第一步:编写代码 95
15.6.3 第二步:上传文件到服务器 95
15.6.4 第三步:远程执行程序 95
15.6.5 第四步:上传数据 95
15.6.6 最后一步:查看结果 95
第16章 大数据全栈式开发语言Python 96
16.1 Python简介 97
16.2 Python安装和配置 98
16.2.1 Anaconda介绍 98
16.2.2 Anaconda下载 98
16.2.3 Anaconda安装 98
16.2.4 Anaconda包管理 98
16.2.5 PyCharm下载 98
16.2.6 PyCharm安装 98
16.2.7 PyCharm使用 98
16.3 Python入门 99
16.3.1 例子概述 99
16.3.2 第一步:新建Python文件 99
16.3.3 第二步:设置字体大小 99
16.3.4 第三步:编写代码 99
16.3.5 第四步:执行程序 99
16.3.6 最后一步:改变输入 99
16.4 Python数据科学库pandas入门 100
16.4.1 例子概述 100
16.4.2 pandas包介绍 100
16.4.3 第一步:打开Jupyter Notebook 100
16.4.4 第二步:导入包 100
16.4.5 第三步:定义数据集 100
16.4.6 第四步:过滤数据 100
16.4.7 最后一步:获取数据 100
16.5 Python绘图库matplotlib入门 101
16.5.1 例子概述 101
16.5.2 第一步:新建一个Python文件 101
16.5.3 第二步:引入画图包 101
16.5.4 第三步:组织数据 101
16.5.5 第四步:画图 101
16.5.6 最后一步:查看结果 101
第17章 大数据实战案例:实时数据流处理项目 102
17.1 项目背景介绍 103
17.2 业务需求分析 104
17.3 项目技术架构 105
17.4 项目技术组成 106
17.5 项目实施步骤 107
17.5.1 第一步:运用Kafka产生数据 107
17.5.2 第二步:运用Spark接收数据 107
17.5.3 第三步:安装Redis软件 107
17.5.4 第四步:准备程序运行环境 107
17.5.5 第五步:远程执行Spark程序 107
17.5.6 第六步:编写Python实现可视化 107
17.5.7 最后一步:执行Python程序 107
17.6 项目总结 108
第18章 大数据实战案例:用户日志综合分析项目 109
18.1 项目背景介绍 110
18.2 项目设计目的 111
18.3 项目技术架构和组成 112
18.4 项目实施步骤 113
18.4.1 第一步:本地数据FTP到Linux环境 113
18.4.2 第二步:Linux数据上传到HDFS 113
18.4.3 第三步:使用Hive访问HDFS数据 113
18.4.4 第四步:使用Kettle把数据导入HBase 113
18.4.5 第五步:使用Sqoop把数据导入MySQL 113
18.4.6 第六步:编写Python程序实现可视化 113
18.4.7 最后一步:执行Python程序 113