關(guān)于舉辦“大數(shù)據(jù)分析- 基于Hadoop/Mahout的大數(shù)據(jù)挖掘”培訓(xùn)的通知其它上課時間:
培訓(xùn)對象:
系統(tǒng)架構(gòu)師、系統(tǒng)分析師、高級程序員、資深開發(fā)人員
培訓(xùn)內(nèi)容:
培訓(xùn)費(fèi):5500元/人(含教材、證書、午餐、學(xué)習(xí)用具等)。住宿協(xié)助安排,費(fèi)用自理。
培訓(xùn)對象
1,系統(tǒng)架構(gòu)師、系統(tǒng)分析師、高級程序員、資深開發(fā)人員。
2,牽涉到大數(shù)據(jù)處理的數(shù)據(jù)中心運(yùn)行、規(guī)劃、設(shè)計負(fù)責(zé)人。
3,政府機(jī)關(guān),金融保險、移動和互聯(lián)網(wǎng)等大數(shù)據(jù)來源單位的負(fù)責(zé)人。
4,高校、科研院所牽涉到大數(shù)據(jù)與分布式數(shù)據(jù)處理的項(xiàng)目負(fù)責(zé)人。
學(xué)員基礎(chǔ)
1,對IT系統(tǒng)設(shè)計有一定的理論與實(shí)踐經(jīng)驗(yàn)。
2,有一定的數(shù)據(jù)倉庫與大數(shù)據(jù)處理的基礎(chǔ)知識。
3,有一定的Hadoop技術(shù)的基礎(chǔ)知識。
證書
培訓(xùn)結(jié)束,頒發(fā)“大數(shù)據(jù)分析- 基于Hadoop/Mahout的大數(shù)據(jù)挖掘”結(jié)業(yè)證書。
培訓(xùn)目標(biāo)
1, 全面了解大數(shù)據(jù)處理技術(shù)的相關(guān)知識。
2,學(xué)習(xí)Hadoop的核心技術(shù)方法以及應(yīng)用特征。
3,深入使用Mahout挖掘工具在大數(shù)據(jù)中的使用。
4,掌握流數(shù)據(jù)挖掘和其它大數(shù)據(jù)挖掘關(guān)鍵技術(shù)。
培訓(xùn)背景
各有關(guān)單位:
研究所是國家專門的計算技術(shù)研究機(jī)構(gòu),同時也是中國信息化建設(shè)的重要支撐單位,中心是致力于高端IT類人才培養(yǎng)及企業(yè)內(nèi)訓(xùn)的專業(yè)培訓(xùn)機(jī)構(gòu)。中心憑借強(qiáng)大師資力量,在總結(jié)多年大型軟件開發(fā)和組織經(jīng)驗(yàn)的基礎(chǔ)上,自主研發(fā)出一整套課程體系,其目的是希望能夠切實(shí)幫助中國軟件企業(yè)培養(yǎng)高級軟件技術(shù)人才,提升整體研發(fā)能力,迄今為止已先后為國家培養(yǎng)了數(shù)萬名計算機(jī)專業(yè)人員,并先后為數(shù)千家大型國內(nèi)外企業(yè)進(jìn)行過專門的定制培訓(xùn)服務(wù)。
隨著互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的發(fā)展,我們已經(jīng)切實(shí)地迎來了一個大數(shù)據(jù)的時代。大數(shù)據(jù)是指無法在一定時間內(nèi)用常規(guī)軟件工具對其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合,對大數(shù)據(jù)的分析已經(jīng)成為一個非常重要且緊迫的需求。目前對大數(shù)據(jù)的分析工具,首選的是Hadoop平臺。Hadoop在可伸縮性、健壯性、計算性能和成本上具有無可替代的優(yōu)勢,事實(shí)上已成為當(dāng)前互聯(lián)網(wǎng)企業(yè)主流的大數(shù)據(jù)分析平臺。為解決廣大系統(tǒng)設(shè)計人員深入研究與開發(fā)大數(shù)據(jù)技術(shù)的需要,培訓(xùn)中心特在“大數(shù)據(jù)處理技術(shù)-基于Hadoop的實(shí)戰(zhàn)”課程的基礎(chǔ)上,針對已有或即將建立Hadoop集群,擁有海量數(shù)據(jù),需要做用戶推薦、產(chǎn)品聚類、信息分類等大數(shù)據(jù)分析用戶,舉辦“大數(shù)據(jù)分析- 基于Hadoop/Mahout的大數(shù)據(jù)挖掘(含Spark和Storm應(yīng)用介紹)”培訓(xùn)班,具體事宜通知如下:
培訓(xùn)內(nèi)容
第一講大數(shù)據(jù)挖掘及其背景
1)數(shù)據(jù)挖掘定義
2)Hadoop相關(guān)技術(shù)
3)大數(shù)據(jù)挖掘知識點(diǎn)
第二講 MapReduce計算模式
1)分布式文件系統(tǒng)
2)MapReduce
3)使用MR的算法設(shè)計
第三講 Hadoop中的云挖掘工具M(jìn)ahout
1)Mahout介紹
2)推薦系統(tǒng)
3)信息聚類
4)分類技術(shù)
5)其它挖掘
第四講 推薦系統(tǒng)及其應(yīng)用開發(fā)
1)一個推薦系統(tǒng)的模型
2)基于內(nèi)容的推薦
3)協(xié)同過濾
4)電影推薦案例
第五講 分類技術(shù)及其應(yīng)用
1)分類的定義
2)分類主要算法
3)Mahout分類過程
4)評估指標(biāo)以及評測
5)貝葉斯算法新聞分類實(shí)例
第六講 聚類技術(shù)及其應(yīng)用
1)聚類的定義
2)聚類的主要算法
3)K-Means、Canopy及其應(yīng)用示例
4)Fuzzy K-Means、Dirichlet及其應(yīng)用示例
5)路透新聞聚類實(shí)例
第七講 關(guān)聯(lián)規(guī)則和相似項(xiàng)發(fā)現(xiàn)
1)購物籃模型
2)Apriori算法
3)抄襲文檔發(fā)現(xiàn)
4)近鄰搜索的應(yīng)用
第八講 流數(shù)據(jù)挖掘相關(guān)技術(shù)
1)流數(shù)據(jù)挖掘及分析
2)流數(shù)據(jù)模型
3)數(shù)據(jù)抽樣
4)流過濾
第九講 大數(shù)據(jù)挖掘應(yīng)用前景
1)與Hadoop集群應(yīng)用的協(xié)作
2)與RHadoop等其它云挖掘工具配合
3)大數(shù)據(jù)挖掘行業(yè)應(yīng)用展望
師資
由業(yè)界知名大數(shù)據(jù)專家親自授課:
楊老師 主要研究網(wǎng)絡(luò)信息分析以及云計算相關(guān)技術(shù),長期從事通信網(wǎng)管系統(tǒng)、網(wǎng)絡(luò)信息處理、商務(wù)智能(BI)以及電信決策支持系統(tǒng)的研究開發(fā)工作,主持和參與了多個國家和省部級基金項(xiàng)目,具有豐富的工程實(shí)踐及軟件研發(fā)經(jīng)驗(yàn)。