培训内容 通过讲师在课堂上的讲解,以及实操练习,学员将学习以下内容:
• 在 Hadoop 机群上进行分布式存储和处理数据。 • 通在 Hadoop 机群上编写、配置和部署 Apache Spark 应用。 • 使用 Spark shell 进行交互式数据分析。 • 使用 Spark SQL 查询处理结构化数据。 • 使用 Spark Streaming 处理流式数据。 • 使用 Flume 和 Kafka 为 Spark Streaming 采集流式数据。 培训对象及学员基础 本课程适合于具有编程经验的开发员及工程师。无需 Apache Hadoop 基础 • 培训内容中对 Apache Spark 的介绍所涉及的代码及练习使用 Scala 和 Python ,因此需至少掌握这两个编程语言中的一种。 • 需熟练掌握 Linux 命令行。 • 对 SQL 有基本了解。
建议参加完该课程的学员考取 CCA Spark and Hadoop 全球认证证书, 证书全球通用。
证书可作为专业技术人员职业能力考核的证明,以及专业技术人员岗位聘用、任职、定级和晋升职务的重要依据。
培训费用培训咨询课程大纲
培训费7360元/人(含授课服务、授课教材、实验手册、培训期间虚拟机、税票费用)。
报名咨询|:1438118790
课程大纲
课程介绍
名称
Developer Training for Spark and Hadoop
第一天
Hadoop 及生态系统介绍 • Apache Hadoop 概述 • 数据存储和摄取 • 数据处理 • 数据分析和探索 • 其他生态系统工具 • 练习环境及分析应用场景介绍 Apache Hadoop 文件存储 • 传统大规模系统的问题 • HDFS 体系结构 • 使用 HDFS • Apache Hadoop 文件格式 Apache Hadoop 机群上的数据处理 • YARN 体系结构 • 使用 YARN 使用 Apache Sqoop 导入关系数据 • Sqoop 简介 • 数据导入 • 导入的文件选项 • 数据导出 Apache Spark 基础 • 什么是 Apache Spark • 使用 Spark Shell • RDDs( 可恢复的分布式数据集) • Spark 里的函数式编程
第二天
Spark RDD • 创建 RDD • 其他一般性 RDD 操作 使用键值对 RDD • 键值对 RDD • MapReduce • 其他键值对 RDD 操作 编写和运行 Apache Spark 应用 • Spark 应用对比 Spark Shell • 创建 SparkContext • 创建 Spark 应用(Scala 和 Java) • 运行 Spark 应用 • Spark 应用 WebUI 配置 Apache Spark 应用 • 配置 Spark 属性 • 运行日志 Apache Spark 的并行处理 • 回顾:机群环境里的 Spark • RDD 分区 • 基于文件 RDD 的分区 • HDFS 和本地化数据 • 执行并行操作 • 执行阶段及任务 Spark 持久化 • RDD 演变族谱 • RDD 持久化简介 • 分布式持久化
第三天
Apache Spark 数据处理的常见模式 • 常见 Spark 应用案例 • 迭代式算法 • 机器学习 • 例子:K - Means DataFrames 和 Spark SQL • Apache Spark SQL 和 SQL Context • 创建 DataFrames • 变更及查询 DataFrames • 保存 DataFrames • DataFrames 和 RDD • Spark SQL 对比 Impala 和Hive-on-Spark • Spark 2.x 版本上的 Apache Spark SQL Apache Kafka • 什么是 Apache Kafka • Apache Kafka 概述 • 如何扩展 Apache Kafka • Apache Kafka 机群架构 • Apache Kafka 命令行工具 使用 Apache Flume 采集实时数据 • 什么是 Apache Flume • Flume 基本体系结构 • Flume 源 • Flume 槽 • Flume 通道 • Flume 配置
第四天
集成 Apache Flume 和 Apache Kafka • 概要 • 应用案例 • 配置
Apache Spark Streaming :DStreams 介绍 • Apache Spark Streaming 概述 • 例子:Streaming 访问计数 • DStreams • 开发 Streaming 应用 Apache Spark Streaming :批处理 • 批处理操作 • 时间分片 • 状态操作 • 滑动窗口操作
Apache Spark Streaming :数据源 • Streaming 数据源概述 • Apache Flume 和Apache Kafka 数据源 • 例子:使用 Direct 模式连接 Kafka • 数据源
Share to WeChat
Like 37