數(shù)倉工程師的升級打怪之路篇
一、數(shù)據(jù)倉庫工程師是什么
首先,我要聲明一點,數(shù)倉工程師不能有一個慣性思維,那便是把自己當(dāng)成一個SQL工程師,即網(wǎng)絡(luò)上調(diào)侃的:數(shù)倉工程師 = SQL boy,我認為這是錯誤的定義?。
在我近幾年的工作沉淀中,我所理解的大數(shù)據(jù)工程師-數(shù)倉方向,其實是基于企業(yè)的海量數(shù)據(jù)而展開的崗位,當(dāng)企業(yè)發(fā)展到了一定規(guī)模積累了海量數(shù)據(jù),這個時候決策者就希望從大數(shù)據(jù)中提取有價值的數(shù)據(jù)從而幫助其做出正確的決策,實現(xiàn)以數(shù)據(jù)驅(qū)動業(yè)務(wù)增長和決策,而這一個過程就可以有數(shù)據(jù)倉庫工程師或者數(shù)據(jù)分析師的角色來參與了,即取數(shù)。
取數(shù):顧名思義,就是從大數(shù)據(jù)中獲取數(shù)據(jù)進行編程開發(fā)實現(xiàn)一些統(tǒng)計指標(biāo)以供決策,而離線數(shù)倉建設(shè)一般使用的是Hive,這里提到了Hive,那便科普一下Hive是什么,因為很多初學(xué)者對它或許有些誤解。
hive并不是一個數(shù)據(jù)倉庫,也不是一個數(shù)據(jù)庫,其實可以把它當(dāng)成是一個數(shù)據(jù)倉庫工具來理解,hive出現(xiàn)的本質(zhì)是為了讓數(shù)據(jù)科學(xué)家或者不是專門搞大數(shù)據(jù)開發(fā)的人通過用類sql的語句hql來處理數(shù)據(jù),但最終實現(xiàn)底層還是轉(zhuǎn)換為MapReduce Job在集群上運行的,它就是作為一個友好的用戶接口屏蔽了我們開發(fā)MapReduce程序而已。而說它不是一個數(shù)據(jù)倉庫或者數(shù)據(jù)庫,其實是因為它本身也不存儲數(shù)據(jù),像hive表的真實數(shù)據(jù)是存儲于集群的HDFS中,而hive表的元數(shù)據(jù)是存儲于hive內(nèi)置的derby數(shù)據(jù)庫或者常用的mysql數(shù)據(jù)庫中,主要應(yīng)用于OLAP這類分析系統(tǒng)而非OLTP這類實時響應(yīng)高的查詢系統(tǒng)。
好了,回歸到數(shù)倉工程師是什么這個話題的討論,我想說的是,數(shù)倉工程師可能日常相關(guān)編程開發(fā)常用的就是寫HiveQL離線數(shù)倉建設(shè),但不代表著工作就是一直在取數(shù),我覺得我們數(shù)倉工程師不僅僅是取數(shù),更重要的是管數(shù)。
何為管數(shù)? 這里我就要說下我的看法,當(dāng)今時代數(shù)據(jù)膨脹式增長,面對著一堆數(shù)據(jù),如何取數(shù)分析是一個活,但如果不對數(shù)據(jù)進行管理,那么取數(shù)這個過程也就沒那么方便了,這時候就會衍生出 數(shù)據(jù)管理和數(shù)據(jù)治理 這2個大方向。
數(shù)倉工程師,不單單是要取數(shù),更要專注于管數(shù)
數(shù)據(jù)資產(chǎn)管理,從而讓數(shù)據(jù)有章可循,數(shù)據(jù)資產(chǎn)化,提升數(shù)據(jù)易用性和模型復(fù)用性
數(shù)據(jù)成本治理,從而讓數(shù)據(jù)成本不會一直膨脹式增長,對成本把控和鏈路優(yōu)化以及穩(wěn)定性保障
二、數(shù)倉開發(fā)需要學(xué)習(xí)什么
接下來分享下數(shù)倉工程師需要學(xué)習(xí)什么技術(shù)棧以及學(xué)習(xí)路線吧
三、最后總結(jié)
接下來就分享下我所理解的數(shù)倉工程師的升級打怪之路吧
1. 熟練使用hive離線和flink實時等編程技術(shù),以及實踐分層模型表設(shè)計開發(fā)
-> 2. 深入實踐數(shù)倉建設(shè)和優(yōu)化模型架構(gòu),站在更高視角看大數(shù)據(jù)產(chǎn)品和數(shù)據(jù)模型架構(gòu)
-> 3. 深入思考實踐數(shù)據(jù)該如何管理和如何治理,才不會使大數(shù)據(jù)變成一個數(shù)據(jù)沼澤
-> 4. 緊隨技術(shù)迭代發(fā)展,關(guān)注新技術(shù)的產(chǎn)生和應(yīng)用場景
作者: 大數(shù)據(jù)階梯之路
歡迎關(guān)注微信公眾號 :大數(shù)據(jù)階梯之路