培訓(xùn)內(nèi)容:
課程收益:
本課程講解了Machine Learning on Spark方方面面的內(nèi)容,從算法解析與實現(xiàn)、到算法的使用、再到算法的源碼解析,以及算法的性能優(yōu)化等問題
培訓(xùn)頒發(fā)證書:
結(jié)業(yè)證書
課程大綱:
第一天第1堂課:Spark編程模型
RDD
transformation
action
persist&checkpoint
lineage
寬依賴與窄依賴
第2堂課:深入Spark內(nèi)核
Spark集群
任務(wù)調(diào)度
DAGScheduler
TaskScheduler
Master內(nèi)部揭秘
Task內(nèi)部揭秘
第3堂課:廣義線性模型詳解與實戰(zhàn)
邏輯回歸
線性回歸
SVM
LASSO
嶺回歸
廣義線性模型代碼及示例
第4堂課:推薦算法及系統(tǒng)詳解與實戰(zhàn)
ALS算法
奇異值分解
Mahout與MLlib的對比分析
推薦系統(tǒng)的搭建示例
第二天第5堂課:聚類算法詳解與實戰(zhàn)
k-means
LDA
高斯混合模型
Power Iteration聚類
聚類算法應(yīng)用示例
第6堂課:流式機器學(xué)習(xí)詳解與實戰(zhàn)
Lambda架構(gòu)
參數(shù)服務(wù)器
from Freeman labs提供的流式算法
應(yīng)用示例
第7堂課:機器學(xué)習(xí)流水線詳解與實戰(zhàn)
Scikit-learn的流水線(包括Pandas等對比)
Spark的流水線(如Data以及ML組件)
特征提取與變換
應(yīng)用示例及對比
第8堂課:機器學(xué)習(xí)中的科學(xué)計算詳解與實戰(zhàn)
矩陣計算中的注意事項
矩陣計算的組件(in C/Fortran and Java)
MLlib中的矩陣計算
MLlib中的統(tǒng)計方法
培訓(xùn)師介紹:
王老師:Spark、Docker、Android技術(shù)中國區(qū)布道師。
Spark亞太研究院院長和首席專家,移動互聯(lián)網(wǎng)、云計算和大數(shù)據(jù)技術(shù)領(lǐng)域集大成者。
當(dāng)今云計算領(lǐng)域最火爆的技術(shù)Docker源碼級專家和Docker技術(shù)在中國的最早實踐者之一。
Cassandra和H技術(shù)在中國的最早實踐者之一。
在Spark、Hadoop、Android、Docker等方面有豐富的源碼、實務(wù)和性能優(yōu)化經(jīng)驗。徹底研究了Spark從0.5.0到1.1.0共18個版本的Spark源碼。Spark最佳暢銷書《大數(shù)據(jù)spark企業(yè)級實戰(zhàn)》作者,電子書《Spark GraphX大規(guī)模圖計算和圖挖掘》、《Spark實戰(zhàn)高手之路》的作者,從2014年6月24日開始,在網(wǎng)上開啟了免費的Spark公開課《決勝大數(shù)據(jù)時代Spark100期公益大講堂》。
Hadoop源碼級專家,曾負(fù)責(zé)某知名公司的類Hadoop框架開發(fā)工作,專注于Hadoop一站式解決方案的提供,同時也是云計算分布式大數(shù)據(jù)處理的最早實踐者之一,Hadoop的狂熱愛好者,不斷的在實踐中用Hadoop解決不同領(lǐng)域的大數(shù)據(jù)的高效處理和存儲,現(xiàn)在正負(fù)責(zé)Hadoop在搜索引擎中的研發(fā)等,著有《云計算分布式大數(shù)據(jù)Hadoop實戰(zhàn)高手之路---從零開始》《云計算分布式大數(shù)據(jù)Hadoop實戰(zhàn)高手之路---高手崛起》《云計算分布式大數(shù)據(jù)Hadoop。實戰(zhàn)高手之路---高手之巔》等;
國內(nèi)最早(2007年)從事于Android系統(tǒng)移植、軟硬整合、框架修改、應(yīng)用程序軟件開發(fā)以及Android系統(tǒng)測試和應(yīng)用軟件測試的技術(shù)專家和技術(shù)創(chuàng)業(yè)人員之一。
多款瀏覽器定制者,中國大陸HTML5的技術(shù)引領(lǐng)者。