數(shù)倉主題域與主題劃分
一、前言
數(shù)據(jù)倉庫具有面向主題的特性,那么就會有主題的概念,數(shù)倉建設是遵循縱向分層開發(fā),橫向劃分主題域設計,數(shù)倉分層就不在這次談了,這次我會結(jié)合本人數(shù)倉工作實踐總結(jié)的經(jīng)驗來聊聊數(shù)倉主題域劃分,同時會引申出主題劃分,和數(shù)據(jù)域是什么,業(yè)務過程等。
這個對于大數(shù)據(jù)數(shù)倉工程師來說是必備的能力,比如當你面臨著一個新業(yè)務的開啟,需要從0到1開始搭建數(shù)據(jù)倉庫或者數(shù)據(jù)集市,這時候就要考慮到主題域和主題的合理劃分。
當然本次分享的內(nèi)容都是從個人實際出發(fā),有疑問或者反饋可以通過關注公眾號留言共同探討,感謝關注。
二、數(shù)倉建設的步驟
1. 業(yè)務調(diào)研
數(shù)倉開發(fā)側(cè)是承上對接業(yè)務研發(fā)側(cè)&承下對接數(shù)據(jù)分析側(cè),在數(shù)倉建設前期要對上游業(yè)務過程和對下游數(shù)據(jù)分析指標體系有所了解和熟知,然后拉齊上下游溝通數(shù)據(jù)口徑和數(shù)倉搭建。
2. 主題域劃分
3. 主題劃分
4. 輸出總線矩陣
即業(yè)務過程和維度,組建成的矩陣
5. 數(shù)倉分層設計模型表
6. 數(shù)倉公共層表迭代升級
三、主題和主題域
下面結(jié)合本人對搬家業(yè)務的數(shù)倉建設,進行主題域劃分和主題劃分實踐,當然項目的大小決定著這是一個小型的數(shù)據(jù)集市 還是 企業(yè)級的數(shù)據(jù)倉庫。
1
主題域的劃分
數(shù)倉主題域:主題域通常是聯(lián)系較為緊密的數(shù)據(jù)主題的集合,根據(jù)業(yè)務需求分析的視角進行劃分抽象歸類。
劃分方法:主題域劃分的方法一般有幾種
要么按照業(yè)務過程來劃分,一個業(yè)務過程抽象出一個主題域,比如業(yè)務系統(tǒng)中的商品、交易、物流 等
要么按照業(yè)務部門來劃分,一個業(yè)務部門抽象出一個主題域,比如中臺部門、業(yè)務運營部門、供應鏈部門 等
要么按照業(yè)務系統(tǒng)來劃分,一個業(yè)務系統(tǒng)抽象出一個主題域,比如搬家系統(tǒng)、erp系統(tǒng) 等
2
主題的劃分
數(shù)倉主題:是在較高層次上將企業(yè)生產(chǎn)上的各個系統(tǒng)中某一分析對象的數(shù)據(jù)進行整合、歸類并分析的一種范圍,屬于一個抽象概念,簡單點說每一個主題對應一個宏觀分析領域。
劃分方法:說白了主要就是要識別出分析對象主體,做主題劃分和主題域劃分,個人建議是要站在全局的視角來看,然后先劃分出主題域,再接著在主題域里面劃分出各個主題,主題域的劃分一般比較謹慎,一旦定下來了避免頻繁變動,雖然數(shù)倉建設是迭代建設的,不能保證一次性初始化好,但我們的主題域劃分和主題劃分要盡可能地涵蓋企業(yè)的所有業(yè)務,以及在新業(yè)務進來時能夠無影響地被包含進來和可擴展主題域。
3
個人案例實踐分享
我就分享我負責過的搬家業(yè)務數(shù)倉建設中,我是如何劃分主題域和劃分主題的,規(guī)模相當于數(shù)據(jù)集市,即小型的數(shù)據(jù)倉庫
劃分主題域:
首先我是按照業(yè)務系統(tǒng)來劃分的,搬家是企業(yè)業(yè)務中一個獨立的業(yè)務線,所對應的業(yè)務系統(tǒng)也是跟其他系統(tǒng)是獨立開的,那么這時候我按照業(yè)務系統(tǒng)來劃分,就不會在建設過程中出現(xiàn)一些‘扯皮’操作,出現(xiàn)數(shù)據(jù)邊界歸屬問題。
劃分主題:
上面的主題域劃分完了后就產(chǎn)生一個搬家主題域,然后把搬家分析作為一個分析領域,那么‘搬家分析’所涉及到的主要分析對象就有用戶、訂單、搬運工 等,則數(shù)倉的主題就可以劃分為用戶主題、訂單主題、搬運工主題 等。
健壯性評估:
當后續(xù)搬家主題域業(yè)務新增,我還可以輕松地擴展出其他主題,畢竟按照上面的劃分法,搬家的數(shù)據(jù)基本都劃分在搬家主題域,剩下的就是搬家有新業(yè)務進來時擴展新主題或包含進已有主題。
4
分享業(yè)界其他的案例
分享網(wǎng)上搜索到的 馬蜂窩數(shù)倉主題、主題域劃分案例
以馬蜂窩訂單交易模型的建設為例,基于業(yè)務生產(chǎn)總線的設計是常見的模式,首先調(diào)研訂單交易的完整過程,定位過程中的關鍵節(jié)點,確認各節(jié)點上發(fā)生的核心事實信息。
四、主題域、數(shù)據(jù)域、業(yè)務過程
總是聽到數(shù)據(jù)域,那么數(shù)據(jù)域和主題域是有什么關系呢,參考《阿里巴巴大數(shù)據(jù)之路》書籍和網(wǎng)上有人總結(jié)過這么一段,如下:
主題域:面向業(yè)務過程,將業(yè)務活動事件進行抽象的集合,如下單、支付、退款都是業(yè)務過程,針對公共明細層(DWD)進行主題劃分。
數(shù)據(jù)域:面向業(yè)務分析,將業(yè)務過程或者維度進行抽象的集合,針對公共匯總層(DWS)進行數(shù)據(jù)域劃分。
業(yè)務過程:指企業(yè)的業(yè)務活動事件,如下單、支付、退款都是業(yè)務過程,業(yè)務過程就是一個不可拆分的行為事件。
其實數(shù)據(jù)域跟主題域的差別不大,很大情況下兩者就等同于一個概念的。
作者:大數(shù)據(jù)小江 Akin
歡迎關注微信公眾號 :大數(shù)據(jù)階梯之路