競賽采用實踐操作技能和技術答辯相結合的方式。第一部分實踐操作技能,首先按照任務要求對Hadoop平臺進行安裝部署操作,再依據給定的數據源、大數據實驗環境以及賽場預先安裝的軟件等,按照任務書要求,完成數據整合、數據存儲、數據分析、數據可視化等過程,最終形成完整的工業大數據分析報告,提出合理化建議。然后結合第二部分技術答辯給出綜合評分。
競賽時間5小時,競賽連續進行。
(一)Hadoop平臺安裝部署
參賽選手依據任務要求,對Hadoop平臺進行安裝部署和基本配置。主要內容包括:Hadoop集群節點的動態增加與刪除、Hadoop集群的負載均衡、HDFS常用操作命令(查詢文件類別、上傳、刪除文件、查詢HDFS基本統計信息等)。
(二)數據整合
參賽選手根據現場提供的不同格式的數據源,通過整理、清洗、轉化、合并等過程,形成完整的單一有效數據源。該模塊主要考察選手對混亂數據、臟數據進行數據整合的能力,使數據和信息集中化,提高資源利用效率。
(三)數據存儲
參賽選手在比賽提供的大數據平臺環境下,通過已安裝好的大數據平臺組件,把整合好的數據或數據庫的數據,存儲到大數據平臺指定路徑中。該模塊主要考核選手應用大數據相關組件將大數據集存儲能力。
(四)數據分析
數據分析包含了數據描述性統計分析和數據建模分析兩項內容如下:
數據描述性統計分析部分,參賽選手需熟悉Pig、Hive、Impala等大數據分析相關組件,運用SQL語句,查詢hdfs上需要分析的數據,根據任務要求,計算出最大值、最小值、均值、中位數、眾數、方差等常規統計分析指標。
數據建模分析部分,參賽選手根據描述統計分析得出的正確指標,選擇適當的數學模型,利用Spark大數據計算引擎,進行迭代計算。發現工業大數據中存在的異常點,預測未來發展變化趨勢。
(五)數據可視化
參賽選手利用比賽預裝軟件,借助于圖形化手段,選擇適當的表現形式,清晰有效地傳達數據分析的結果。該模塊主要考核選手對分析結果有效展示的能力。
(六)報告撰寫
參賽選手按照要求,結合數據分析結論和數據可視化產品,輸出完整規范的數據分析報告。報告要求量化規范、重點突出、邏輯清晰、思維嚴謹、有創新點等。該模塊主要考核選手數據分析專業文檔編輯能力。
(七)技術答辯