培训内容
通过讲师在课堂上的讲解,以及实操练习,学员将学习以下内容:
• 在 Hadoop 机群上进行分布式存储和处理数据。
• 通在 Hadoop 机群上编写、配置和部署 Apache Spark 应用。
• 使用 Spark shell 进行交互式数据分析。
• 使用 Spark SQL 查询处理结构化数据。
• 使用 Spark Streaming 处理流式数据。
• 使用 Flume 和 Kafka 为 Spark Streaming 采集流式数据。
培训对象及学员基础
本课程适合于具有编程经验的开发员及工程师。无需 Apache Hadoop 基础
• 培训内容中对 Apache Spark 的介绍所涉及的代码及练习使用 Scala 和 Python,因此需至少掌握这两个编程语言中的一种。
• 需熟练掌握 Linux 命令行。
• 对 SQL 有基本了解。
建议参加完该课程的学员考取CCA Spark and Hadoop全球认证证书,证书全球通用。
证书可作为专业技术人员职业能力考核的证明,以及专业技术人员岗位聘用、任职、定级和晋升职务的重要依据。

培训费用培训咨询课程大纲
培训费7360元/人(含授课服务、授课教材、实验手册、培训期间虚拟机、税票费用)。
报名咨询|:1438118790
课程大纲
课程介绍 |
名称 | Developer Training for Spark and Hadoop |
第一天 | Hadoop 及生态系统介绍 • Apache Hadoop 概述 • 数据存储和摄取 • 数据处理 • 数据分析和探索 • 其他生态系统工具 • 练习环境及分析应用场景介绍 Apache Hadoop 文件存储 • 传统大规模系统的问题 • HDFS 体系结构 • 使用 HDFS • Apache Hadoop 文件格式 Apache Hadoop 机群上的数据处理 • YARN 体系结构 • 使用 YARN 使用 Apache Sqoop 导入关系数据 • Sqoop 简介 • 数据导入 • 导入的文件选项 • 数据导出 Apache Spark 基础 • 什么是 Apache Spark • 使用 Spark Shell • RDDs( 可恢复的分布式数据集) • Spark 里的函数式编程 |
第二天 | Spark RDD • 创建 RDD • 其他一般性 RDD 操作 使用键值对 RDD • 键值对 RDD • MapReduce • 其他键值对 RDD 操作 编写和运行 Apache Spark 应用 • Spark 应用对比 Spark Shell • 创建 SparkContext • 创建 Spark 应用(Scala 和 Java) • 运行 Spark 应用 • Spark应用 WebUI 配置 Apache Spark 应用 • 配置 Spark 属性 • 运行日志 Apache Spark 的并行处理 • 回顾:机群环境里的 Spark • RDD 分区 • 基于文件 RDD 的分区 • HDFS 和本地化数据 • 执行并行操作 • 执行阶段及任务 Spark 持久化 • RDD 演变族谱 • RDD 持久化简介 • 分布式持久化 |
第三天 | Apache Spark 数据处理的常见模式 • 常见 Spark 应用案例 • 迭代式算法 • 机器学习 • 例子:K - Means DataFrames 和 Spark SQL • Apache Spark SQL 和 SQL Context • 创建 DataFrames • 变更及查询 DataFrames • 保存 DataFrames • DataFrames 和 RDD • Spark SQL 对比 Impala 和Hive-on-Spark • Spark 2.x 版本上的 Apache Spark SQL Apache Kafka • 什么是 Apache Kafka • Apache Kafka 概述 • 如何扩展 Apache Kafka • Apache Kafka 机群架构 • Apache Kafka 命令行工具 使用 Apache Flume 采集实时数据 • 什么是 Apache Flume • Flume 基本体系结构 • Flume 源 • Flume 槽 • Flume 通道 • Flume 配置 |
第四天 | 集成 Apache Flume 和 Apache Kafka • 概要 • 应用案例 • 配置 Apache Spark Streaming:DStreams 介绍 • Apache Spark Streaming 概述 • 例子:Streaming 访问计数 • DStreams • 开发 Streaming 应用 Apache Spark Streaming:批处理 • 批处理操作 • 时间分片 • 状态操作 • 滑动窗口操作 Apache Spark Streaming:数据源 • Streaming 数据源概述 • Apache Flume 和Apache Kafka 数据源 • 例子:使用 Direct 模式连接 Kafka • 数据源 |
本活动由主办方委托【活动行】票务代理,具体服务及内容由主办方【时课网】提供,请仔细阅读活动内容后报名。
本活动由「活动行」为您开具发票,如需发票,请登录活动行APP提交申请,活动行将在活动结束后7日内为您开具电子发票并发送至您的邮箱。
本活动支持退款,如需退款,请于活动开始时间的24小时之前提交申请,24小时内不接受退款。退款时,活动行将收取票价的10%作为退款服务手续费。
如您在活动参与过程中遇到问题或纠纷,双方应友好沟通、协商解决,您也可联络活动行客服进行协助。
针对虚假活动、内容侵权等行为,欢迎举报;一经核实,活动行有权进行账号管控或内容删除处理。