Cloudera認(rèn)證Apache Hadoop開(kāi)發(fā)者培訓(xùn)(CCA)
培訓(xùn)班型: 公開(kāi)課
課程長(zhǎng)度: 4天/24小時(shí)
培訓(xùn)日期: 待定
認(rèn)證考試: 北京、上海、廣州、杭州、福州、深圳、
西安、南京、天津、武漢、成都、重慶
培訓(xùn)地點(diǎn): 博學(xué)國(guó)際教育培訓(xùn)中心
環(huán)境要求: 投影儀、白板、大白紙
培訓(xùn)形式: 實(shí)例講授,現(xiàn)場(chǎng)演、練、及時(shí)溝通
培訓(xùn)資料: 培訓(xùn)教材
課程內(nèi)容
認(rèn)證描述:
4天的課程包涵了解Apache Spark的基礎(chǔ)知識(shí)及其與Hadoop整體生態(tài)系統(tǒng)的集成方式。本課程將重溫HDFS的基礎(chǔ)內(nèi)容,學(xué)習(xí)如何使用Sqoop/Flume攝取數(shù)據(jù),利用Spark處理分布式數(shù)據(jù),學(xué)習(xí)在Impala和Hive上數(shù)據(jù)建模,以及在數(shù)據(jù)存儲(chǔ)方面的*實(shí)踐。
課程概述:
?Hadoop 核心
?HDFS 和 MapReduce 工作原理
?如何開(kāi)發(fā) MapReduce 應(yīng)用
?如何單元測(cè)試 MapReduce 應(yīng)用
?如何使用 MapReduce combiners, partitioners 和 distributed cache
?開(kāi)發(fā)調(diào)試 MapReduce 應(yīng)用
?如何實(shí)現(xiàn) MapReduce 應(yīng)用中的輸入/輸出
?常見(jiàn) MapReduce 算法
?如何用 MapReduce 來(lái)聯(lián)結(jié)數(shù)據(jù)集
?如何把 Hadoop 嵌入到企業(yè)已有的計(jì)算環(huán)境里
?如何使用 Hive、Impala 和 Pig 來(lái)快速開(kāi)發(fā)數(shù)據(jù)分析應(yīng)用
?如何使用 Oozie 來(lái)創(chuàng)建管理工作流
培訓(xùn)前提: 企業(yè)管理者、CIO、CTO、*信息*官員、項(xiàng)目(開(kāi)發(fā))經(jīng)理、咨詢顧
問(wèn);IT經(jīng)理,IT咨詢顧問(wèn),IT支持專家;系統(tǒng)工程師、數(shù)據(jù)中心管理員、云
計(jì)算管理員及想加入云計(jì)算隊(duì)伍的您。
授課對(duì)象:具備編程經(jīng)驗(yàn)的開(kāi)發(fā)人員;熟悉面向?qū)ο蟾呒?jí)編程語(yǔ)言,如Java;不需要事先掌握Hadoop相關(guān)知識(shí)
培訓(xùn)目標(biāo):
通過(guò)考試可獲得Cloudera Certified Developer for Apache Hadoop (CCDH) 證書
Using the Spark shell for interactive data analysis
? The features of Spark’s Resilient Distributed Datasets
? How Spark runs on a cluster
? How Spark parallelizes task execution
? Writing Spark applications
? Processing streaming data with Spark
環(huán)境準(zhǔn)備:
1. 操作系統(tǒng):Linux
2. java環(huán)境:jdk6以上
硬件環(huán)境:電腦內(nèi)存4G以上
課程內(nèi)容:
? 介紹
? Hadoop 起源和動(dòng)機(jī)
? Hadoop 基本概念和 HDFS
? MapReduce 介紹
? Hadoop 集群和 Hadoop 生態(tài)系統(tǒng)
? 使用 Java 編寫 MapReduce 程序
? 使用 Streaming 編寫 MapReduce 程序
? MapReduce 單元測(cè)試
? 深入 Hadoop API
? 開(kāi)發(fā)技巧
? Reducer 和 Partitioner
? 數(shù)據(jù)輸入/輸出
? 常見(jiàn) MapReduce 算法
? 用 MapReduce 來(lái)聯(lián)結(jié)數(shù)據(jù)集
? 把 Hadoop 嵌入到企業(yè)已有的計(jì)算環(huán)境里
? Hive、Impala 和 Pig 簡(jiǎn)介
? Oozie 簡(jiǎn)介
? 結(jié)論
? 附錄: Cloudera Enterprise
Introduction to Spark
? What is Spark?
? Review: From Hadoop MapReduce to Spark
? Review: HDFS
? Review: YARN
? Spark Overview
Spark Basics
? Using the Spark Shell
? RDDs (Resilient Distributed Datasets)
? Functional Programming in Spark
Working with RDDs in Spark
? Creating RDDs
? Other General RDD Operations
Aggregating Data with Pair RDDs
? Key-Value Pair RDDs
? Map-Reduce
? Other Pair RDD Operations
Writing and Deploying Spark Applications
? Spark Applications vs. Spark Shell
? Creating the SparkContext
? Building a Spark Application (Scala and Java)
? Running a Spark Application
? The Spark Application Web UI
? Hands-On Exercise: Write and Run a Spark Application
? Configuring Spark Properties
? Logging
Parallel Processing
? Review: Spark on a Cluster
? RDD Partitions
? Partitioning of File-based RDDs
? HDFS and Data Locality
? Executing Parallel Operations
? Stages and Tasks
Spark RDD Persistence
? RDD Lineage
? RDD Persistence Overview
? Distributed Persistence
Basic Spark Streaming
? Spark Streaming Overview
? Example: Streaming Request Count
? DStreams
? Developing Spark Streaming Applications
Advanced Spark Streaming
? Multi-Batch Operations
? State Operations
? Sliding Window Operations
? Advanced Data Sources
Common Patterns in Spark Data Processing
? Common Spark Use Cases
? Iterative Algorithms in Spark
? Graph Processing and Analysis
? Machine Learning
? Example: k-means
Improving Spark Performance
? Shared Variables: Broadcast Variables
? Shared Variables: Accumulators
? Common Performance Issues
? Diagnosing Performance Problems
Spark SQL and DataFrames
? Spark SQL and the SQL Context
? Creating DataFrames
? Transforming and Querying DataFrames
? Saving DataFrames
? DataFrames and RDDs
? Comparing Spark SQL, Impala and Hive-on-Spark
?