大數據資料處理 –Hadoop MapReduce 程式設計與資料視覺化
教師: 王經篤,何承遠

2017/10/18 ~ 2017/12/20
6小時/10週 (報名結束)

摘要

利用具可擴充性Hadoop MapReduce 計算模式,學習處理巨量資料之Java程式設計,其中包括Hadoop單機與叢集系統安裝(使用Windoop)。實驗部分以交通部臺灣區國道高速公路局「交通資料庫」(http://tisvcloud.freeway.gov.tw/)之開放資料庫做為練習巨量資料處理來源,並且練習如何使用網路資料自動下載程式設計,與利用Google Map 顯示匝道位置。
另一方面,資料越來越大且以異於常態的速度不斷增加,透過視覺化的技術,可讓決策人員更容易理解、記憶並在複雜的情況下,做出正確的決策。透過視覺化的技術也可幫助不同背景的人員溝通,以達良好的設計與分析結果。

課程目標

1. 學習利用Hadoop巨量處理資料的能力

2. 瞭解資料視覺化是什麼與如何呈現

3. 學習大數據及視覺化資料的背後意義

4. 學習實際案例分析的能力

授課教師

download.php?id=209&area=teacherfiles

 %E4%BA%9E%E6%B4%B2-%E7%8E%8B%E7%B6%93%E7

王經篤老師

 

王經篤博士現為亞洲大學資訊工程學系副教授並合聘於生物資訊與醫學工程系。主要研究為從大量文字序列中抽取最大重複序列擷取,這個研究可以應用於生物資訊與交通流量分析等實務應用。因為以上應用需要大量的計算資源,故採用Hadoop分散式計算因而具有實務程式設計經驗,目前已經在亞洲大學開設大數據相關雲端計算課程數年(從2011年至今)。

 

個人網站 http://dns2.asia.edu.tw/~jdwang/

 

 %E4%BA%9E%E6%B4%B2-%E4%BD%95%E6%89%BF%E9

何承遠老師

 

何承遠博士現為亞洲大學資訊工程學系副教授並兼任大數據研究中心發展組組長。博士求學時期,承遠曾獲得2005年亞洲微軟學者獎(Microsoft Fellowship)並於2006年至微軟亞洲研究院當research intern一同研究開發新一代網路傳輸協定,Compound TCP (CTCP),並被微軟作業系統支援,例如:Windows XP, Vista, 8 和10以及Windows Server 2003, 2008和2016。

畢業至今(含研發替代役時期),承遠曾先後加入學界、法人與產業界,參與過許多計畫與產品開發,例如:友訊(D-Link)的Mydlink Cloud服務、交大網路測試中心(NBL)的真實流量測試服務、資策會(III)的社群化健康照顧服務跟智慧觀光、源思科技(LOFTechnology)的揪科(Juiker)等,其中Mydlink Cloud服務在2011年推出的同時,該年相關設備銷售量達到60萬台;而社群化健康照顧服務則獲得資策會102年「績優計畫及標竿獎項」之技術成就獎銅質獎和2013 R&D 100 Awards 提名。

承遠的主要研究領域為電腦網路與通訊領域、物聯網應用和大數據健康照護科技應用。除此之外,承遠對於專利申請、分析與答辯等事務皆有相當經驗與興趣。

 

個人網站 http://people.cs.nctu.edu.tw/~tommyho/

 

課程進度表

第1週:介紹Hadoop+Windoop 安裝與測試

第2週:Hadoop Java 程式載入修改與執行

第3週:巨量資料處理(1)-交通部台灣區國道高速公路局「交通資料庫」

第4週:巨量資料處理(2)-『交通部高速公路匝道資料』+網路資料自動下載程式

第5週:專題:『交通部高速公路匝道資料』資料擷取

第6週:Hadoop MapReduce 課程總結與計算環境改進

第7週:資料視覺化之你有迷思嗎?

第8週:視覺心理與設計方法

第9週:資料視覺化常用技巧

第10週:資料視覺化經典與實際案例

課程內容

週次

單元主題

影音時數

第一週

介紹Hadoop+Windoop  安裝

0.5 小時

第二週

Hadoop Java 程式載入修改與執行

0.5 小時

第三週

巨量資料處理(1)-交通部臺灣區國道高速公路局「交通資料庫」

0.5 小時

第四週

巨量資料處理(2)-『交通部高速公路閘道資料』+ 網路資料自動下載程式

0.5 小時

第五週

專題:『交通部高速公路閘道資料』資訊擷取

0.5 小時

第六週

線上測驗與專題成果展示

0.5 小時

第七週

資料視覺化之你有迷思嗎?part 1

資料視覺化之你有迷思嗎?part 2

0.5 小時

第八週

視覺心理與設計方法 part 1

視覺心理與設計方法 part 2

0.5 小時

第九週

資料視覺化常用技巧 part 1

資料視覺化常用技巧 part 2

資料視覺化常用技巧 part 3

0.75 小時

第十週

資料視覺化經典與實際案例 part 1

資料視覺化經典與實際案例 part 2

資料視覺化經典與實際案例 part 3

0.75 小時

上課形式

投影片講解+上機操作錄影示範

評分標準

  • 平時作業: (Hadoop課程部分)
  1. (10%) Windoop 單機系統安裝
  2. (10%) Hadoop Java 程式載入修改與執行
  3. (10%) 網路資料自動下載
  4. (30%) 高速公路閘道資料之資訊擷取
  • 平時測驗: (資料視覺化課程部分)
  1.  (20%) 你有迷思嗎? (前後測各佔10%)
  2.  (10%) 視覺心理與設計方法
  3.  (5%) 資料視覺化常用技巧
  4.  (5%) 資料視覺化經典與實際案例

通過標準


課程及格標準:60分滿分:100分

先修科目或先備能力

Java programming