Spark与Hadoop大数据分析【PDF】【28.55MB】

 首页 > 教程文档 > 大数据 > Spark与Hadoop大数据分析【PDF】【28.55MB】

Spark与Hadoop大数据分析【PDF】【28.55MB】

 2019-03-05  399  收藏  0 赞一个  0 真差劲  0 去评论  去下载

内容简介

本书介绍了ApacheSpark和Hadoop的基础知识，并深入探讨了所有Spark组件：SparkCore、SparkSQL、DataFrame、DataSet、普通流、结构化流、MLlib、Graphx，以及Hadoop的核心组件（HDFS、MapReduce和Yarn）等，此外，也讲解了在Spark Hadoop集群中实现的示例。

译者序
前言
第1章　从宏观视角看大数据分析1
1.1　大数据分析以及 Hadoop 和 Spark 在其中承担的角色3
1.1.1　典型大数据分析项目的生命周期4
1.1.2　Hadoop和Spark承担的角色6
1.2　大数据科学以及Hadoop和Spark在其中承担的角色 6
1.2.1　从数据分析到数据科学的根本性转变 6
1.2.2　典型数据科学项目的生命周期 8
1.2.3　Hadoop和Spark 承担的角色9
1.3　工具和技术9
1.4　实际环境中的用例11
1.5　小结12
第2章　Apache Hadoop和Apache Spark入门13
2.1　Apache Hadoop概述13
2.1.1　Hadoop 分布式文件系统 14
2.1.2　HDFS 的特性15
2.1.3　MapReduce 16
2.1.4　MapReduce 的特性 17
2.1.5　MapReduce v1与MapReduce v2对比17
2.1.6　YARN 18
2.1.7　Hadoop上的存储选择20
2.2　Apache Spark概述24
2.2.1　Spark 的发展历史 24
2.2.2　Apache Spark 是什么25
2.2.3　Apache Spark 不是什么26
2.2.4　MapReduce 的问题 27
2.2.5　Spark 的架构28
2.3　为何把 Hadoop 和 Spark 结合使用31
2.3.1　Hadoop 的特性31
2.3.2　Spark 的特性31
2.4　安装 Hadoop 和 Spark 集群33
2.5　小结36
第3章　深入剖析Apache Spark37
3.1　启动 Spark 守护进程 37
3.1.1　使用CDH 38
3.1.2　使用 HDP、MapR 和Spark 预制软件包38
3.2　学习Spark的核心概念 39
3.2.1　使用 Spark 的方法 39
3.2.2　弹性分布式数据集 41
3.2.3　Spark 环境43
3.2.4　变换和动作44
3.2.5　RDD 中的并行度46
3.2.6　延迟评估 49
3.2.7　谱系图50
3.2.8　序列化 51
3.2.9　在 Spark 中利用 Hadoop文件格式 52
3.2.10　数据的本地性 53
3.2.11　共享变量 54
3.2.12　键值对 RDD 55
3.3　Spark 程序的生命周期 55
3.3.1　流水线 57
3.3.2　Spark 执行的摘要 58
3.4　Spark 应用程序59
3.4.1　Spark Shell 和 Spark 应用程序59
3.4.2　创建 Spark 环境59
3.4.3　SparkConf 59
3.4.4　SparkSubmit 60
3.4.5　Spark 配置项的优先顺序61
3.4.6　重要的应用程序配置 61
3.5　持久化与缓存 62
3.5.1　存储级别 62
3.5.2　应该选择哪个存储级别63
3.6　Spark 资源管理器：Standalone、YARN和Mesos63
3.6.1　本地和集群模式63
3.6.2　集群资源管理器 64
3.7　小结 67
第4章　利用Spark SQL、Data-Frame和Dataset进行大数据分析69
4.1　Spark SQL 的发展史 70
4.2　Spark SQL 的架构71
4.3　介绍Spark SQL的四个组件72
4.4　DataFrame 和 Dataset 的演变74
4.4.1　RDD 有什么问题74
4.4.2　RDD 变换与 Dataset 和DataFrame 变换75
4.5　为什么要使用 Dataset 和DataFrame75
4.5.1　优化 76
4.5.2　速度 76
4.5.3　自动模式发现 77
4.5.4　多数据源，多种编程语言77
4.5.5　RDD 和其他 API 之间的互操作性77
4.5.6　仅选择和读取必要的数据78
4.6　何时使用 RDD、Dataset 和DataFrame78
4.7　利用 DataFrame 进行分析 78
4.7.1　创建 SparkSession 79
4.7.2　创建 DataFrame 79
4.7.3　把DataFrame转换为RDD82
4.7.4　常用的 Dataset/DataFrame操作 83
4.7.5　缓存数据84
4.7.6　性能优化 84
4.8　利用 Dataset API 进行分析85
4.8.1　创建 Dataset 85
4.8.2　把 DataFrame 转换为Dataset 86
4.8.3　利用数据字典访问元数据87
4.9　Data Sources API 87
4.9.1　读和写函数 88
4.9.2　内置数据源 88
4.9.3　外部数据源 93
4.10　把 Spark SQL 作为分布式 SQL引擎 97
4.10.1　把 Spark SQL 的 Thrift 服务器用于 JDBC / ODBC访问97
4.10.2　使用 beeline 客户端查询数据 98
4.10.3　使用 spark-sql CLI 从 Hive查询数据99
4.10.4　与 BI 工具集成100
4.11　Hive on Spark 100
4.12　小结100
第5章　利用Spark Streaming和Structured Streaming进行实时分析102
5.1　实时处理概述 103
5.1.1　Spark Streaming 的优缺点 104
5.1.2　Spark Streaming 的发展史104
5.2　Spark Streaming 的架构 104
5.2.1　Spark Streaming 应用程序流106
5.2.2　无状态和有状态的流处理107
5.3　Spark Streaming 的变换和动作 109
5.3.1　union 109
5.3.2　join 109
5.3.3　transform 操作 109
5.3.4　updateStateByKey 109
5.3.5　mapWithState 110
5.3.6　窗口操作 110
5.3.7　输出操作 111
5.4　输入数据源和输出存储 111
5.4.1　基本数据源 112
5.4.2　高级数据源 112
5.4.3　自定义数据源112
5.4.4　接收器的可靠性 112
5.4.5　输出存储113
5.5　使用 Kafka 和 HBase 的 Spark Streaming113
5.5.1　基于接收器的方法 114
5.5.2　直接方法（无接收器）116
5.5.3　与 HBase 集成117
5.6　Spark Streaming 的高级概念118
5.6.1　使用 DataFrame118
5.6.2　MLlib 操作119
5.6.3　缓存/持久化 119
5.6.4　Spark Streaming 中的容错机制 119
5.6.5　Spark Streaming 应用程序的性能调优 121
5.7　监控应用程序 122
5.8　结构化流概述123
5.8.1　结构化流应用程序的工作流123
5.8.2　流式 Dataset 和流式