教學(xué)優(yōu)勢
曙海教育的課程培養(yǎng)了大批受企業(yè)歡迎的工程師。大批企業(yè)和曙海
建立了良好的合作關(guān)系。曙海集團(tuán)的課程在業(yè)內(nèi)有著廣泛的美譽(yù)度和響亮的知名度。
秉承二十幾年積累的教學(xué)品質(zhì),本課程以真實(shí)項(xiàng)目實(shí)戰(zhàn)為導(dǎo)向,授課工程師將會與您分享設(shè)計(jì)的全流程及工具的綜合使用技巧、經(jīng)驗(yàn)。
主題1:大數(shù)據(jù)平臺方案與實(shí)施 ·?大數(shù)據(jù)基礎(chǔ)與發(fā)展過程 ·?傳統(tǒng)大規(guī)模數(shù)據(jù)處理與分析存在的問題 ·?大數(shù)據(jù)計(jì)算框架 o?離線計(jì)算框架 o?流式計(jì)算框架 o?內(nèi)存計(jì)算框架 ·?大數(shù)據(jù)平臺方案 o?Apache Hadoop方案 §?核心組件 §?Hadoop 1.0與2.0版本關(guān)聯(lián)與區(qū)別 §?Hadoop生態(tài)系統(tǒng) o?國外主流大數(shù)據(jù)平臺方案 §?CDH?、Hortonworks、MapR §?傳統(tǒng)IT公司方案:Oracle Exadata,SAP HANA o?國內(nèi)主流大數(shù)據(jù)平臺方案與廠商 o?大數(shù)據(jù)平臺方案比較 ·?大數(shù)據(jù)的行業(yè)應(yīng)用 ·?大數(shù)據(jù)的落地實(shí)施挑戰(zhàn) ? 主題2:大數(shù)據(jù)計(jì)算模型(一)–批處理MapReduce ·?MapReduce編程模型 o?Map處理 o?Reduce處理 o?MapReduce主程序設(shè)置 ·?MapReduce處理流程 o?數(shù)據(jù)讀取collect o?中間數(shù)據(jù)sort o?中間數(shù)據(jù)spill o?中間數(shù)據(jù)shuffle o?聚合分析reduce ·?MapReduce開發(fā)高級應(yīng)用 o?Combiner技術(shù)與應(yīng)用場景 o?Partitioner技術(shù)與應(yīng)用場景 o?多Reducers應(yīng)用 ·?MapReduce開發(fā)與應(yīng)用實(shí)踐 o?Hadoop平臺搭建與運(yùn)行 o?MapReduce安裝與部署 o?應(yīng)用案例:基于HDFS+MapReduce集成的服務(wù)器日志分析采集、存儲與分析MapReduce程序?qū)嵗_發(fā)與運(yùn)行 ? 主題3:大數(shù)據(jù)存儲系統(tǒng) ·?HDFS分布式文件系統(tǒng) o?HDFS系統(tǒng)架構(gòu)與原理 o?NameNode功能詳解 §?fsimage和editslog o?DataNode功能詳解 §?block的備份策略 o?HDFS讀寫機(jī)制 o?HDFS高可用方案 §?NameNode單點(diǎn)故障解決方案 §?NFS冷備份 ? |
? |
主題4:Hadoop軟件框架與優(yōu)化 ·?Hadoop1.0框架 o?Hadoop JobTracker o?Hadoop TaskTracker ·?Hadoop 2.0?框架 o?ResourceManager組件 o?NodeManager組件 o?ApplicationMaster組件 o?YARN組件 ·?Hadoop 2.0?資源調(diào)度優(yōu)化 o?YARN調(diào)度原理 o?CapacityScheduler o?FairScheduler ·?Hadoop框架組件調(diào)優(yōu) o?慢啟動優(yōu)化 o?心跳優(yōu)化 o?容錯(cuò)優(yōu)化 o?MR計(jì)算框架參數(shù)調(diào)優(yōu) ·?HDFS調(diào)優(yōu) o?RPC線程調(diào)優(yōu) o?本地文件系統(tǒng)調(diào)優(yōu) o?RAID與卷管理調(diào)優(yōu) o?小文件優(yōu)化 ? 主題5:大數(shù)據(jù)計(jì)算模型(二)實(shí)時(shí)交互計(jì)算– Spark ·?Spark編程模型 o?Scala:面向函數(shù)的編程 o?Scala常見函數(shù)與開發(fā) o?Scala編譯和運(yùn)行 ·?Spark RDD開發(fā)模型 o?Spark RDD運(yùn)行機(jī)制 o?Spark RDD主要Transformation §?map §?flatmap §?filter §?union §?reduceByKey §?groupByKey o?Spark RDD主要Action §?count §?collect §?saveAsTextFile o?Spark RDD依賴關(guān)系 §?寬依賴 §?窄依賴 ·?Spark集群架構(gòu)與關(guān)鍵組件 ·?Spark作業(yè)運(yùn)行機(jī)制 o?執(zhí)行DAG圖 o?任務(wù)集 o?executor執(zhí)行模型 ·?Spark開發(fā)與應(yīng)用實(shí)踐 o?Spark運(yùn)行環(huán)境搭建與部署 o?應(yīng)用案例 §?基于HDFS+Flume+Spark的服務(wù)器運(yùn)行日志實(shí)時(shí)分析Spark程序?qū)嵗_發(fā)與運(yùn)行 ? ? 主題6:SQL on Hadoop大數(shù)據(jù)查詢 ·?基于MapReduce的大數(shù)據(jù)查詢Hive o?Hive架構(gòu)與工作原理 o?Hive數(shù)據(jù)加載 o?Hive內(nèi)部表和外部表 o?Hive分區(qū)表和分通表 o?Hive的存儲方式 §?列存儲和行存儲 o?Hive SQL基本操作 ·?基于Spark的大數(shù)據(jù)查詢SparkSQL o?SparkSQL工作原理與執(zhí)行機(jī)制 o?SparkSQL數(shù)據(jù)模型DataFrame o?SparkSQL數(shù)據(jù)讀取與結(jié)果保存 §?json §?Hive table §?Parquet file §?RDD o?SparkSQL和Hive的區(qū)別與聯(lián)系 o?實(shí)踐SparkSQL操作 §?數(shù)據(jù)表讀取、查詢與結(jié)果保存 ? |
? |
主題7:大數(shù)據(jù)計(jì)算模型(三) 流計(jì)算 ·?流數(shù)據(jù)處理應(yīng)用場景 o?流數(shù)據(jù)處理特點(diǎn) o?流計(jì)算系統(tǒng):SparkStreaming,Storm對比 ·?流數(shù)據(jù)計(jì)算框架:Spark Streaming o?Spark Streaming基本概念 o?Spark Streaming數(shù)據(jù)模型DStream o?Spark Streaming架構(gòu)與工作機(jī)制 o?Spark Streaming數(shù)據(jù)源操作 o?Spark Streaming開發(fā)示例 §?基于文件流的SparkStraeming程序 §?基于socket流的SparkStraeming程序 ·?流數(shù)據(jù)計(jì)算框架:Storm o?Storm基本概念 o?Storm編程模型 §?Spout,Bolt, Topology o?數(shù)據(jù)流分組 o?并發(fā)度設(shè)置 o?容錯(cuò)機(jī)制 ? 主題8:NoSQL數(shù)據(jù)庫 ·?NoSQL數(shù)據(jù)庫 o?關(guān)系型數(shù)據(jù)庫瓶頸 o?NoSQL數(shù)據(jù)庫概念,分類與適用場景 §?HBase,MongoDB,Redis ·?列存儲NoSQL數(shù)據(jù)庫HBase o?Hbase原理與數(shù)據(jù)模型 §?行、列簇、時(shí)間戳 o?HBase系統(tǒng)架構(gòu) §?Hmaster §?RegionServer §?Zookeeper o?HBase的讀寫機(jī)制 §?LSM結(jié)構(gòu)的數(shù)據(jù)組織與讀寫 o?Hbase表的設(shè)計(jì)原則 §?高表與寬表 §?rowkey設(shè)計(jì) o?Hbase適用場景 ? 主題9:大數(shù)據(jù)采集 ·?RDBMS與Hadoop數(shù)據(jù)轉(zhuǎn)換工具Sqoop o?Sqoop工作原理 ·?文件采集工具Flume o?Flume組件與運(yùn)行 o?Flume常用配置 ·?Kafka o?Kafka基本概念: producer, broker, consumer o?Kafka集群架構(gòu) o?Kafka運(yùn)行機(jī)制 o?Kafka應(yīng)用場景 ? |
? |
?