Hadoop大数据处理技术基础与实践【PDF】【7.41MB】
内容简介
全书共有12章,从Hadoop起源开始,介绍了Hadoop的安装和配置,并对Hadoop的组件分别进行了介绍,包括HDFS分布式存储系统,MapReduce计算框架,海量数据库HBase,Hive数据仓库,Pig、ZooKeeper管理系统等知识,最后对Hadoop实时数据处理技术作了简单介绍,旨在让读者了解当前的其它的大数据处理技术。本书除了对Hadoop的理论进行说明之外,还对如何使用各组件进行了介绍,但介绍的只是基础的使用,没有涉及到底层的高级内容,所以本书只是起一个引导作用,旨在让读者了解Hadoop并能够使用Hadoop的基本功能,并不是学习Hadoop的完全手册。 本书适用于高等院校的学生;是云计算专业、物联网专业及云计算与大数据专业的核心基础课程,也是计算机相关专业的一门新增专业课或选修课;适合于零售及云计算与大数据技术相关的培训班等使用。
作者简介
安俊秀,女,教授,西安交通大学攻读计算机科学与技术专业,获工学硕士学位。中国计算机学会高级会员;中国电子学会高级会员;成都市科技攻关计划评审专家;成都军区项目评审专家;汕尾市科技顾问团首席顾问。
在科研工作方面,一直从事云计算与大数据、信息智能搜索与计算社会方面的研究工作。近五年来就此发表论文40余篇,其中**作者20余篇,核心期刊以上占15余篇。主编或参与完成专著3部、教材4部,6部由***出版社出版。获得国家发明专利2项(2014授权),实用新型专利授权12项。获得软件著作权13项。科研项目20项,其中作为项目负责人承担省部级项目3项;作为主研人员参与***项目6项、省级项目6项。
目录
Hadoop基础与实践
第1章Hadoop概述
1.1Hadoop来源和动机
1.2Hadoop体系架构
1.3Hadoop与分布式开发
1.4Hadoop行业应用案例分析
1.4.1Hadoop在门户网站的应用
1.4.2Hadoop在搜索引擎中的应用
1.4.3Hadoop在电商平台中的应用
1.5小结
第2章Hadoop安装与配置管理
2.1实验准备
2.2配置一个单节点环境
2.2.1运行一个虚拟系统CentOS
2.2.2配置网络
2.2.3创建新的用户组和用户
2.2.4上传文件到CentOS并配置Java、Hadoop环境
2.2.5修改Hadoop2.2配置文件
2.2.6修改CentOS主机名
2.2.7绑定hostname与IP
2.2.8关闭防火墙
2.3节点之间的免密码通信
2.3.1什么是SSH
2.3.2拷贝虚拟机节点
2.3.3配置SSH免密码登录
2.4Hadoop的启动和测试
2.4.1格式化文件系统
2.4.2启动HDFS
2.4.3启动Yarn
2.4.4管理JobHistory Server
2.4.5集群验证
2.4.6需要了解的默认配置
2.5动态管理节点
2.5.1动态增加和删除datanode
2.5.2动态修改TaskTracker
2.6小结
第3章HDFS技术
3.1HDFS的特点
3.2HDFS架构
3.2.1数据块
3.2.2元数据节点与数据节点
3.2.3辅助元数据节点
3.2.4安全模式
3.2.5负载均衡
3.2.6垃圾回收
3.3HDFS Shell命令
3.3.1文件处理命令
3.3.2dfsadmin命令
3.3.3namenode命令
3.3.4fsck命令
3.3.5pipes命令
3.3.6job命令
3.4HDFS中Java API的使用
3.4.1上传文件
3.4.2新建文件
3.4.3查看文件详细信息
3.4.4下载文件
3.5RPC通信
3.5.1反射机制
3.5.2代理模式与动态代理
3.5.3Hadoop RPC机制与源码分析
3.6小结
第4章Map/Reduce技术
4.1 什么是Map/Reduce
4.2 Map/Reduce编程模型
4.2.1 MapReduce编程模型简介
4.2.2 Map/Reduce简单模型
4.2.3 Map/Reduce复杂模型
4.2.4 Map/Reduce编程实例–WordCount
4.3 Map/Reduce数据流
4.3.1分片、格式化数据源(InputFormat)
4.3.2 Map过程
4.3.3 Shuffle过程
4.3.4 Reduce过程
4.3.5文件写入(OutputFormat)
4.4 Map/Reduce任务流程
4.4.1 MRv2基本组成
4.4.2 Yarn基本组成
4.4.3 任务流程
4.5 Map/Reduce的Streaming和Pipe
4.5.1 Hadoop Streaming
4.5.2 Hadoop Pipe
4.6 Map/Reduce性能调优
4.7Map/Reduce实战
4.7.1 快速入门
4.7.2简单使用Eclipse插件
4.8小结
第5章Hadoop I/O操作
5.1HDFS数据完整性
5.1.1校验和
5.1.2DataBlockScanner
5.2基于文件的数据结构
5.2.1SequenceFile存储
5.2.2MapFile
5.2.3SequenceFile转换为MapFile
5.3压缩
5.3.1Codec
5.3.2本地库
5.3.3如何选择压缩格式
5.4序列化
5.4.1Writable接口
5.4.2WritableComparable
5.4.3Hadoop writable基本类型
5.4.4自定义writable类型
5.5小结
第6章海量数据库HBase技术
6.1 初识HBase
6.2 HBase表视图
6.2.1概念视图
6.2.2物理视图
6.3HBase物理存储模型
6.4安装HBase
6.4.1HBase单节点安装
6.4.2HBase伪分布式安装
6.4.3HBase完全分布式安装
6.5HBaseShell
6.5.1general一般操作
6.5.2ddl操作
6.5.3dml操作
6.5.4小结
6.6小结
第7章ZooKeeper技术
7.1 分布式协调技术
7.2 实现者
7.3 角色
7.4 ZooKeeper数据模型
7.4.1Znode
7.4.2ZooKeeper中的时间
7.4.3ZooKeeper节点属性
7.4.4watch触发器
7.5 ZooKeeper集群安装
7.6 ZooKeeper主要Shell操作
7.7 典型运用场景
7.7.1数据发布与订阅
7.7.2统一命名服务(Name Service)
7.7.3分布通知/协调(Distribution of notification/coordination)
7.8小结
第8章分布式数据仓库技术Hive
8.1 Hive出现原因
8.2 Hive服务组成
8.3 Hive安装
8.3.1 Hive基本安装
8.3.2 MySQL安装
8.3.3 Hive配置
8.4 Hive Shell介绍
8.5HiveQL详解
8.5.1 Hive管理数据方式
8.5.2 Hive表DDL操作
8.5.3 Hive表DML操作
8.6小结
第9章分布式数据分析工具Pig
9.1 Pig的安装和配置
9.2 Pig基本概念
9.3 Pig保留关键字
9.4使用Pig
9.4.1 Pig命令行选项
9.4.2 Pig的两种运行模式
9.4.3 Pig相关Shell命令详解
9.4.4Pig程序运行方式
9.4.5 Pig输入与输出
9.5模式(Schemas)
9.6 Pig相关函数详解
9.7小结
第10章 Hadoop与RDBMS数据迁移工具Sqoop
10.1 Sqoop基本安装
10.2 Sqoop配置
10.3 Sqoop相关功能
10.4 Hive、Pig和Sqoop三者之间的关系
10.5小结
第11章Hadoop1.x与Hadoop2.x的比较
11.1 Hadoop发展历程
11.2 Hadoop1.x与Hadoop2.x之间的差异
11.2.1 Hadoop1与Hadoop2体系结构对比
11.2.2 Hadoop1与Hadoop2之间配置差异
11.2.3 Hadoop2的Yarn框架
11.2.4 HDFS联邦机制(Federation)
11.3小结
第12章Hadoop实时数据处理技术
12.1 Storm—Yarn
12.1.1 Apache Storm组成结构
12.1.2 Storm数据流
12.1.3 Storm—Yarn产生背景
12.1.4 Storm—Yarn功能介绍
12.2 Apache Spark
12.2.1 Apache Spark组成结构
12.2.2 Apache Spark扩展功能
12.3 Storm与Spark的比较
12.4小结
附录一:使用Eclipse提交Hadoop任务相关错误解决
附录二:常用Pig内置函数简介
一、推荐使用迅雷或快车等多线程下载软件下载本站资源。
二、未登录会员无法下载,登录后可获得更多便利功能,若未注册,请先注册。
三、如果服务器暂不能下载请稍后重试!总是不能下载,请点我报错 ,谢谢合作!
四、本站大部分资源是网上搜集或私下交流学习之用,任何涉及商业盈利目的均不得使用,否则产生的一切后果将由您自己承担!本站将不对任何资源负法律责任.如果您发现本站有部分资源侵害了您的权益,请速与我们联系,我们将尽快处理.
五、如有其他问题,请加网站设计交流群(点击这里查看交流群 )进行交流。
六、如需转载本站资源,请注明转载来自并附带链接
七、本站部分资源为加密压缩文件,统一解压密码为:www.aizhanzhe.com
- 1尚硅谷前端学科全套视频[AVI][130.72GB]
- 2深入理解php:高级技巧、面向对象与核心技术(原书第3版) 【PDF】
- 3开发高质量PHP框架与应用的实际案例解析【PDF】
- 4响应式Web图形设计 ([美]Christopher Schmitt) 中文【PDF】
- 5响应式Web设计:HTML5和CSS3实践指南【PDF】
- 6响应式Web设计:HTML5和CSS3实战 第2版 (本·弗莱恩) 中文【PDF】
- 7Axure RP8 实战手册 网站和APP原型制作案例精粹(小楼一夜听春语) 试读版【PDF】【15.4MB】
- 8[马上学Android]安卓开发视频教程
- 9Android开发视频教程
- 10PHP100视频教程
- 1Java编程思想On Java 8[PDF][中文][英文][源码][15.31MB]
- 2PostgreSQL实战 (谭峰等著)【PDF】【221.29MB】
- 3【机器学习】菜菜的sklearn课堂(1-12全课)[PDF][源码][157.45MB]
- 4加密与解密(第4版)[PDF][光盘源码][1.15GB]
- 5UNREAL ENGINE 4蓝图完全学习教程[PDF][66.67MB]
- 6Qt 5.9 C++开发指南[PDF][276.26MB]
- 7Python数据分析与应用PPT、教案、实训数据、习题答案[PPT][142.49MB]
- 8数据中台:让数据用起来[PDF][12.80MB]
- 9计算机网络:自顶向下方法(第7版) 【PDF】【英文】【17.46MB】
- 10[马上学Android]安卓开发视频教程
