[图灵程序设计丛书].Hadoop数据分析[PDF][17.00MB]
内容简介
通过提供分布式数据存储和并行计算框架,Hadoop已经从一个集群计算的抽象演化成了一个大数据的操作系统。本书旨在通过以可读且直观的方式提供集群计算和分析的概览,为数据科学家深入了解特定主题领域铺平道路,从数据科学家的视角介绍Hadoop集群计算和分析。本书分为两大部分,* 一部分从非常高的层次介绍分布式计算,讨论如何在集群上运行计算;* 二部分则重点关注数据科学家应该了解的工具和技术,意在为各种分析和大规模数据管理提供动力。
目录
前言 ix
* 一部分 分布式计算入门
* 1章 数据产品时代 2
1.1 什么是数据产品 2
1.2 使用Hadoop构建大规模数据产品 4
1.2.1 利用大型数据集 4
1.2.2 数据产品中的Hadoop 5
1.3 数据科学流水线和Hadoop生态系统 6
1.4 小结 8
* 2 章 大数据操作系统 9
2.1 基本概念 10
2.2 Hadoop架构 11
2.2.1 Hadoop集群 12
2.2.2 HDFS 14
2.2.3 YARN 15
2.3 使用分布式文件系统 16
2.3.1 基本的文件系统操作 16
2.3.2 HDFS文件权限 18
2.3.3 其他HDFS接口 19
2.4 使用分布式计算 20
2.4.1 MapReduce:函数式编程模型 20
2.4.2 MapReduce:集群上的实现 22
2.4.3 不止一个MapReduce:作业链 27
2.5 向YARN 提交MapReduce 作业 28
2.6 小结 30
第3 章 Python 框架和Hadoop Streaming 31
3.1 Hadoop Streaming 32
3.1.1 使用Streaming在CSV 数据上运行计算 34
3.1.2 执行Streaming作业 38
3.2 Python 的MapReduce框架 39
3.2.1 短语计数 42
3.2.2 其他框架 45
3.3 MapReduce进阶 46
3.3.1 combiner 46
3.3.2 partitioner 47
3.3.3 作业链 47
3.4 小结 50
第4 章 Spark内存计算 52
4.1 Spark基础 53
4.1.1 Spark栈 54
4.1.2 RDD 55
4.1.3 使用RDD 编程 56
4.2 基于PySpark的交互性Spark 59
4.3 编写Spark应用程序 61
4.4 小结 67
第5 章 分布式分析和模式 69
5.1 键计算 70
5.1.1 复合键 71
5.1.2 键空间模式 74
5.1.3 pair与stripe 78
5.2 设计模式 80
5.2.1 概要 81
5.2.2 索引 85
5.2.3 过滤 90
5.3 迈向* 后一英里分析 95
5.3.1 模型拟合 96
5.3.2 模型验证 97
5.4 小结 98
* 二部分 大数据科学的工作流和工具
第6 章 数据挖掘和数据仓 102
6.1 Hive 结构化数据查询 103
6.1.1 Hive 命令行接口(CLI) 103
6.1.2 Hive 查询语言 104
6.1.3 Hive 数据分析 108
6.2 HBase 113
6.2.1 NoSQL 与列式数据库 114
6.2.2 HBase 实时分析 116
6.3 小结 122
第7 章 数据采集 123
7.1 使用Sqoop 导入关系数据 124
7.1.1 从MySQL 导入HDFS 124
7.1.2 从MySQL 导入Hive 126
7.1.3 从MySQL 导入HBase 128
7.2 使用Flume 获取流式数据 130
7.2.1 Flume 数据流 130
7.2.2 使用Flume 获取产品印象数据 133
7.3 小结 136
第8 章 使用高 级API 进行分析 137
8.1 Pig 137
8.1.1 Pig Latin 138
8.1.2 数据类型 142
8.1.3 关系运算符 142
8.1.4 用户定义函数 143
8.1.5 Pig 小结 144
8.2 Spark 高 级API 144
8.2.1 Spark SQL 146
8.2.2 DataFrame 148
8.3 小结 153
第9 章 机器学习 154
9.1 使用Spark 进行可扩展的机器学习 154
9.1.1 协同过滤 156
9.1.2 分类 161
9.1.3 聚类 163
9.2 小结 166
* 10 章 总结:分布式数据科学实战 167
10.1 数据产品生命周期 168
10.1.1 数据湖泊 169
10.1.2 数据采集 171
10.1.3 计算数据存储 172
10.2 机器学习生命周期 173
10.3 小结 175
附录A 创建Hadoop 伪分布式开发环境 176
附录B 安装Hadoop 生态系统产品 184
术语表 193
关于作者 211
关于封面 211
文档截图

一、推荐使用迅雷或快车等多线程下载软件下载本站资源。
二、未登录会员无法下载,登录后可获得更多便利功能,若未注册,请先注册。
三、如果服务器暂不能下载请稍后重试!总是不能下载,请点我报错 ,谢谢合作!
四、本站大部分资源是网上搜集或私下交流学习之用,任何涉及商业盈利目的均不得使用,否则产生的一切后果将由您自己承担!本站将不对任何资源负法律责任.如果您发现本站有部分资源侵害了您的权益,请速与我们联系,我们将尽快处理.
五、如有其他问题,请加网站设计交流群(点击这里查看交流群 )进行交流。
六、如需转载本站资源,请注明转载来自并附带链接
七、本站部分资源为加密压缩文件,统一解压密码为:www.aizhanzhe.com
- 1尚硅谷前端学科全套视频[AVI][130.72GB]
- 2深入理解php:高级技巧、面向对象与核心技术(原书第3版) 【PDF】
- 3开发高质量PHP框架与应用的实际案例解析【PDF】
- 4响应式Web图形设计 ([美]Christopher Schmitt) 中文【PDF】
- 5响应式Web设计:HTML5和CSS3实践指南【PDF】
- 6响应式Web设计:HTML5和CSS3实战 第2版 (本·弗莱恩) 中文【PDF】
- 7Axure RP8 实战手册 网站和APP原型制作案例精粹(小楼一夜听春语) 试读版【PDF】【15.4MB】
- 8[马上学Android]安卓开发视频教程
- 9Android开发视频教程
- 10PHP100视频教程
- 1Java编程思想On Java 8[PDF][中文][英文][源码][15.31MB]
- 2PostgreSQL实战 (谭峰等著)【PDF】【221.29MB】
- 3【机器学习】菜菜的sklearn课堂(1-12全课)[PDF][源码][157.45MB]
- 4加密与解密(第4版)[PDF][光盘源码][1.15GB]
- 5UNREAL ENGINE 4蓝图完全学习教程[PDF][66.67MB]
- 6Qt 5.9 C++开发指南[PDF][276.26MB]
- 7Python数据分析与应用PPT、教案、实训数据、习题答案[PPT][142.49MB]
- 8数据中台:让数据用起来[PDF][12.80MB]
- 9计算机网络:自顶向下方法(第7版) 【PDF】【英文】【17.46MB】
- 10[马上学Android]安卓开发视频教程
