×

首页>Cloudera Developer Training for Spark and Hadoop

Cloudera Developer Training for Spark and Hadoop课程代码F102培训课时24课时


课程介绍

学习如何将数据导入到Apache Hadoop机群并使用Spark、Hive、Flume、Sqoop、Impala及其他Hadoop生态系统工具对数据进行各种操作和处理分析。

课程大纲

第一章 Hadoop 及生态系统介绍
1.传统大规模系统的问题
2.Hadoop !
3.Hadoop 生态系统
4. Hadoop 体系结构及HDFS
5.机群环境下的分布式处理
6.存储:HDFS 体系结构
7.存储:使用HDFS
8.资源管理:YARN 体系结构
9.资源管理:使用YARN
第二章 使用Apache Sqoop 导入关系数据
1.Sqoop 简介
2. 数据的基本导入导出
3.减少传输的数据量
4.改善Sqoop 性能
5.Sqoop 2
第三章 Impala 及Hive 介绍
1.简介
2.为什么使用Impala 及Hive
3.Hive 和传统数据库的比较
4.Hive 应用场景
第四章 使用Impala 及Hive 管理数据及建模
1.数据存储
2.创建数据库及表
3.表数据导入
4.HCatalog
5.Impala 元数据缓存
第五章 数据格式
1. 选择文件格式
2.支持不同文件格式的工具
3. Avro 数据格式定义模式
4.在Hive 及Sqoop 里使用Avro
5.Avro 格式数据模式变更
6.压缩
第六章 数据分区
1.分区概述
2.Impala 及Hive 里的数据分区
第七章 Apache Flume 实时数据采集
1.什么是Apache Flume
2.Flume 基本体系结构
3. Flume 源
4.Flume 槽
5.Flume 通道
6. Flume 配置
第八章 Spark 基础
1. 什么是Apache Spark
2. 使用Spark Shell
3. RDDs( 可恢复的分布式数据集)
4.Spark 里的函数式编程
第九章 Spark RDD
1. RDD
2.键值对RDD
3. MapReduce
4. 其他键值对RDD 操作
第十章 编写和部署Spark 应用
1.Spark 应用对比Spark Shell
2.创建SparkContext
3. 创建Spark 应用(Scala 和Java)
4. 运行Spark 应用
5. Spark 应用WebUI
6. 配置Spark 属性
7. 运行日志
第十一章 Spark 的并行处理
1. 回顾:机群环境里的Spark
2. RDD 分区
3. 基于文件RDD 的分区
4.HDFS 和本地化数据
5. 执行并行操作
6. 执行阶段及任务
第十二章 Spark 缓存和持久化
1.RDD 演变
2. 缓存
3. 分布式持久化
第十三章 Spark 数据处理的常见模式
1. 常见Spark 应用案例
2. 迭代式算法
3.图处理及分析
4.机器学习
5. 例子:K - Means
第十四章 预览:Spark SQL
1. Spark SQL 和SQL Context
2.创建DataFrames
3. 变更及查询DataFrames
4. 保存DataFrames
5.Spark SQL 对比Impala
总结

学员基础

本课程适合准备报考CCA Spark及Hadoop开发员认证考试的技术人员。虽然通过该认证考试,考生仍然需要做进一步的学习和准备,但是本课程涵盖了在该认证考试中考核的很多主题和知识点。在参加完本培训后,我们建议学员参加此课程的一个后继课程:“设计和创建大数据应用”。

课程目标

在为期四天的培训中,学员将学习关键概念和掌握使用最新技术和工具将数据采集到Hadoop机群并进行处理。通过学习掌握诸如Spark、Hive、Flume、Sqoop和Impala这样的Hadoop生态系统工具和技术,Hadoop开发员将具备解决实际大数据问题和挑战的能力。本课程包含了大量的实操及编程练习来帮助学员熟悉并掌握各种工具,并最终获得在实际工作中针对特定的问题或场景来选取最佳解决工具或技术的能力。通过讲师在课堂上的讲解,以及实操练习,学员将学习Apache Spark及如何将其集成到整个Hadoop生态系统中去,包括以下内容: 1.数据是如何在Hadoop机群里进行分布式存储及处理的 2.如何使用Sqoop和Flume导入数据 3.如何使用Apache Spark处理分布式数据 4.如何使用Impala及Hive将结构化数据建模成表并进行分析查询 5.如何根据数据使用场景来确定最佳存储格式 6.数据存储最佳实践

国际认证考试-Cloudera CCA Spark及Hadoop认证开发者

考试编号 考试名称 必考 选考
CCA CCA Spark and Hadoop Developer Exam

结业-开启新起点

footer底部

Copyright © 2006-2017 东方瑞通版权所有
京ICP备 13009094号   京公网安备 11010802014211号   

提示

老学员报名 非老学员报名