數(shù)據(jù)倉庫相關(guān)術(shù)語

數(shù)據(jù)倉庫相關(guān)術(shù)語

數(shù)據(jù)倉庫

數(shù)據(jù)倉庫是一個支持管理決策的數(shù)據(jù)集合。數(shù)據(jù)是面向主題的、集成的、不易丟失的并且是時變的。數(shù)據(jù)倉庫是所有操作環(huán)境和外部數(shù)據(jù)源的快照集合。它并不需要非常精確,因為它必須在特定的時間基礎(chǔ)上從操作環(huán)境中提取出來。


數(shù)據(jù)集市

數(shù)據(jù)倉庫只限于單個主題的區(qū)域,例如顧客、部門、地點等。數(shù)據(jù)集市在從數(shù)據(jù)倉庫獲取數(shù)據(jù)時可以依賴于數(shù)據(jù)倉庫,或者當它們從操作系統(tǒng)中獲取數(shù)據(jù)時就不依賴于數(shù)據(jù)倉庫。


事實

事實是數(shù)據(jù)倉庫中的信息單元,也是多維空間中的一個單元,受分析單元的限制。事實存儲于一張表中(當使用關(guān)系數(shù)據(jù)庫時)或者是多維數(shù)據(jù)庫中的一個單元。每個事實包括關(guān)于事實(銷售額,銷售量,成本,毛利,毛利率等)的基本信息,并且與維度相關(guān)。在某些情況下,當所有的必要信息都存儲于維度中時,單純的事實出現(xiàn)就是對于數(shù)據(jù)倉庫足夠的信息。


維度

維度是用來反映業(yè)務(wù)的一類屬性,這類屬性的集合構(gòu)成一個維度。例如,某個地理維度可能包括國家、地區(qū)、省以及城市的級別。一個時間維度可能包括年、季、月、周、日的級別。


級別

維度層次結(jié)構(gòu)的一個元素。級別描述了數(shù)據(jù)的層次結(jié)構(gòu),從數(shù)據(jù)的最高(匯總程度最大)級別直到最低(最詳細)級別(如大分類-中分類-小分類-細分類)。級別僅存在于維度內(nèi)。級別基于維度表中的列或維度中的成員屬性。


數(shù)據(jù)清洗

對數(shù)據(jù)倉庫系統(tǒng)無用的或者不符合數(shù)據(jù)格式規(guī)范的數(shù)據(jù)稱之為臟數(shù)據(jù)。清洗的過程就是清除臟數(shù)據(jù)的過程。


數(shù)據(jù)采集

數(shù)據(jù)倉庫系統(tǒng)中后端處理的一部分。數(shù)據(jù)采集過程是指從業(yè)務(wù)系統(tǒng)中收集與數(shù)據(jù)倉庫各指標有關(guān)的數(shù)據(jù)。


數(shù)據(jù)轉(zhuǎn)換

解釋業(yè)務(wù)數(shù)據(jù)并修改其內(nèi)容,使之符合數(shù)據(jù)倉庫數(shù)據(jù)格式規(guī)范,并放入數(shù)據(jù)倉庫的數(shù)據(jù)存儲介質(zhì)中。數(shù)據(jù)轉(zhuǎn)換包括數(shù)據(jù)存儲格式的轉(zhuǎn)換以及數(shù)據(jù)表示符的轉(zhuǎn)換(如產(chǎn)品代碼到產(chǎn)品名稱的轉(zhuǎn)換)。


聯(lián)機分析處理(OLAP OnlineAnalytical Processing )

OLAP是一種多維分析技術(shù),用來滿足決策用戶在大量的業(yè)務(wù)數(shù)據(jù)中,從多角度探索業(yè)務(wù)活動的規(guī)律性、市場的運作趨勢的分析需求,并輔助他們進行戰(zhàn)略發(fā)展決策的制定。按照數(shù)據(jù)的存儲方式分OLAP又分為ROLAP、MOLAP和HOLAP。在客戶信息數(shù)據(jù)倉庫CCDW的數(shù)據(jù)環(huán)境下,OLAP提供上鉆、下鉆、切片、旋轉(zhuǎn)等在線分析機制。完成的功能包括多角度實時查詢、簡單的數(shù)據(jù)分析,并輔之于各種圖形展示分析結(jié)果。


切片

一種用來在數(shù)據(jù)倉庫中將一個維度中的分析空間限制為數(shù)據(jù)子集的技術(shù)。


切塊

一種用來在數(shù)據(jù)倉庫中將多個維度中的分析空間限制為數(shù)據(jù)子集的技術(shù)。


星型模式

是數(shù)據(jù)倉庫應(yīng)用程序的最佳設(shè)計模式。它的命名是因其在物理上表現(xiàn)為中心實體,典型內(nèi)容包括指標數(shù)據(jù)、輻射數(shù)據(jù),通常是有助于瀏覽和聚集指標數(shù)據(jù)的維度。星形圖模型得到的結(jié)果常常是查詢式數(shù)據(jù)結(jié)構(gòu),能夠為快速響應(yīng)用戶的查詢要求提供最優(yōu)的數(shù)據(jù)結(jié)構(gòu)。星形圖還常常產(chǎn)生一種包含維度數(shù)據(jù)和指標數(shù)據(jù)的兩層模型。


雪花模式

指一種擴展的星形圖。星形圖通常生成一個兩層結(jié)構(gòu),即只有維度和指標,雪花圖生成了附加層。實際數(shù)據(jù)倉庫系統(tǒng)建設(shè)過程中,通常只擴展三層:維度(維度實體)、指標(指標實體)和相關(guān)的描述數(shù)據(jù)(類目細節(jié)實體);超過三層的雪花圖模型在數(shù)據(jù)倉庫系統(tǒng)中應(yīng)該避免。因為它們開始像更傾向于支持OLTP 應(yīng)用程序的規(guī)格化結(jié)構(gòu),而不是為數(shù)據(jù)倉庫和OLAP應(yīng)用程序而優(yōu)化的非格式化結(jié)構(gòu)。


粒度

粒度將直接決定所構(gòu)建倉庫系統(tǒng)能夠提供決策支持的細節(jié)級別。粒度越高表示倉庫中的數(shù)據(jù)較粗,反之,較細。粒度是與具體指標相關(guān)的,具體表現(xiàn)在描述此指標的某些可分層次維的維值上。例如,時間維度,時間可以分成年、季、月、周、日等。數(shù)據(jù)倉庫模型中所存儲的數(shù)據(jù)的粒度將對信息系統(tǒng)的多方面產(chǎn)生影響。事實表中以各種維度的什么層次作為最細粒度,將決定存儲的數(shù)據(jù)能否滿足信息分析的功能需求,而粒度的層次劃分、以及聚合表中粒度的選擇將直接影響查詢的響應(yīng)時間。


度量

度量是業(yè)務(wù)流程節(jié)點上的一個數(shù)值。比如銷量,價格,成本等等。


事實表中的度量可分為三類:完全可加,半可加,不可加。


完全可加的度量是最靈活,最有用的,比如說銷量,銷售額等,可進行任意維度匯總;

半可加的度量可以對某些維度匯總,但不能對所有維度匯總,差額是常見的半可加度量,它除了時間維度外,可以跨所有維度進行加法操作;

還有一種是完全不可加的,例如:比率。對于這類非可加度量,一種好的方法是,盡可能存儲非可加度量的完全可加分量,并在計算出最終的非可加事實前,將這些分量匯總到最終的結(jié)果集中。

度量值

在多維數(shù)據(jù)集中,度量值是一組值,這些值基于多維數(shù)據(jù)集的事實數(shù)據(jù)表中的一列,而且通常為數(shù)字。此外,度量值是所分析的多維數(shù)據(jù)集的中心值。即,度量值是最終用戶瀏覽多維數(shù)據(jù)集時重點查看的數(shù)字數(shù)據(jù)(如銷售、毛利、成本)。


口徑

口徑就是取數(shù)邏輯(如何取數(shù)的),比如要取的數(shù)是10歲以下兒童中男孩的平均身高,這就是統(tǒng)計的口徑。


指標

指標是口徑的衡量值,也就是最后的結(jié)果。比如最近七天的訂單量,一個促銷活動的購買轉(zhuǎn)化率等。


一個指標具體到計算實施,主要有以下幾部分組成:


指標加工邏輯,比如count ,sum, avg


維度,比如按部門、地域進行指標統(tǒng)計,對應(yīng)sql中的group by


業(yè)務(wù)限定/修飾詞,比如以不同的支付渠道來算對應(yīng)的指標,微信支付的訂單退款率,支付寶支付的訂單退款率 。對應(yīng)sql中的where。


除此之外,指標本身還可以衍生、派生出更多的指標,基于這些特點,可以將指標進行分類:








原子指標:

基本業(yè)務(wù)事實,沒有業(yè)務(wù)限定、沒有維度。比如訂單表中的訂單量、訂單總金額都算原子指標;


業(yè)務(wù)方更關(guān)心的指標,是有實際業(yè)務(wù)含義,可以直接取數(shù)據(jù)的指標。比如店鋪近1天訂單支付金額就是一個派生指標,會被直接在產(chǎn)品上展示給商家看。


但是這個指標卻不能直接從數(shù)倉的統(tǒng)一中間層里取數(shù)(因為沒有現(xiàn)成的事實字段,數(shù)倉提供的一般都是大寬表)。需要有一個橋梁連接數(shù)倉中間層和業(yè)務(wù)方的指標需求,于是便有了派生指標


派生指標

維度+修飾詞+原子指標。店鋪近1天訂單支付金額中店鋪是維度,近1天是一個時間類型的修飾詞,支付金額是一個原子指標;維度:觀察各項指標的角度;修飾詞:維度的一個或某些值,比如維度性別下,男和女就是2種修飾詞。


衍生指標

比如某一個促銷活動的轉(zhuǎn)化率就是衍生指標,因為需要促銷投放人數(shù)指標和促銷訂單數(shù)指標進行計算得出。


標簽

標簽是人為設(shè)定的、根據(jù)業(yè)務(wù)場景需求,對目標對象運用一定的算法得到的高度精煉的特征標識??梢姌撕炇墙?jīng)過人為再加工后的結(jié)果,如網(wǎng)紅、白富美、蘿莉。對于有歧義的標簽,我們內(nèi)部可進行標簽區(qū)分,比如:蘋果,我們可以定義蘋果指的是水果,蘋果手機才指的是手機。


自然鍵

由現(xiàn)實中已經(jīng)存在的屬性組成的鍵,它在業(yè)務(wù)概念中是唯一的,并具有一定的業(yè)務(wù)含義,比如商品ID,員工ID。


以數(shù)倉角度看,來自于業(yè)務(wù)系統(tǒng)的標識符就是自然鍵,比如業(yè)務(wù)庫中員工的編號。


持久鍵

保持永久性不會發(fā)生變化。有時也被叫做超自然持久鍵。比如身份證號屬于持久鍵。


自然鍵和持久鍵區(qū)別:舉個例子就明白了,比如說公司員工離職之后又重新入職,他的自然鍵也就是員工編號發(fā)生了變化,但是他的持久鍵身份證號是不變的。


代理鍵

就是不具有業(yè)務(wù)含義的鍵。代理鍵有許多其他的稱呼:無意義鍵、整數(shù)鍵、非自然鍵、人工鍵、合成鍵等。


代理鍵就是簡單的以按照順序序列生產(chǎn)的整數(shù)表示。產(chǎn)品行的第1行代理鍵為1,則下一行的代理鍵為2,如此進行。代理鍵的作用僅僅是連接維度表和事實表。


退化維度

退化維度,就是那些看起來像是事實表的一個維度關(guān)鍵字,但實際上并沒有對應(yīng)的維度表,就是維度屬性存儲到事實表中,這種存儲到事實表中的維度列被稱為退化維度。與其他存儲在維表中的維度一樣,退化維度也可以用來進行事實表的過濾查詢、實現(xiàn)聚合操作等。


那么究竟怎么定義退化維度呢?比如說訂單id,這種量級很大的維度,沒必要用一張維度表來進行存儲,而我們進行數(shù)據(jù)查詢或者數(shù)據(jù)過濾的時候又非常需要,所以這種就冗余在事實表里面,這種就叫退化維度,citycode這種我們也會冗余在事實表里面,但是它有對應(yīng)的維度表,所以它不是退化維度。


下鉆

這是在數(shù)據(jù)分析中常見的概念,下鉆可以理解成增加維的層次,從而可以由粗粒度到細粒度來觀察數(shù)據(jù),比如對產(chǎn)品銷售情況分析時,可以沿著時間維從年到月到日更細粒度的觀察數(shù)據(jù)。從年的維度可以下鉆到月的維度、日的維度等。


上卷

知道了下鉆,上卷就容易理解了,它倆是相逆的操作,所以上卷可以理解為刪掉維的某些層,由細粒度到粗粒度觀察數(shù)據(jù)的操作或沿著維的層次向上聚合匯總數(shù)據(jù)。


T+0與T+1

概念最早來自于股市。T+0和T+1交易制度是中國股市的一種交易制度,T+0交易指的是當天買入股票可當天賣出,當天賣出股票又可當天買入。


在大數(shù)據(jù)中:T+0代表實時處理的數(shù)據(jù)。T+1代表處理昨天的數(shù)據(jù)。


數(shù)據(jù)挖掘

數(shù)據(jù)挖掘是指利用復(fù)雜的模式識別技術(shù)從大量數(shù)據(jù)中找到有意義的模式、提取見解。這與我們前文討論的使用個人數(shù)據(jù)做分析的術(shù)語“分析”密切相關(guān)。為了提取出有意義的模式,數(shù)據(jù)挖掘者使用統(tǒng)計學(xué)(是呀,好老的數(shù)學(xué))、機器學(xué)習(xí)算法和人工智能。


數(shù)據(jù)科學(xué)家

我們談?wù)摰氖且粋€如此熱門的職業(yè)!數(shù)據(jù)科學(xué)家們可以通過提取原始數(shù)據(jù)(難道是從前文所說的數(shù)據(jù)湖中提取的?),處理數(shù)據(jù),然后提出新見解。數(shù)據(jù)科學(xué)家所需具備的一些技能與超人無異:分析、統(tǒng)計、計算機科學(xué)、創(chuàng)造力、故事講述和理解業(yè)務(wù)環(huán)境。難怪他們能獲得如此高的薪水報酬。


總線架構(gòu)

維度建模的數(shù)據(jù)倉庫中,有一個概念叫Bus Architecture,中文一般翻譯為“總線架構(gòu)”??偩€架構(gòu)是Kimball的多維體系結(jié)構(gòu)(MD)中的三個關(guān)鍵性概念之一,另兩個是一致性維度(Conformed Dimension)和一致性事實(Conformed Fact)。


在多維體系結(jié)構(gòu)(MD) 的數(shù)據(jù)倉庫架構(gòu)中,主導(dǎo)思想是分步建立數(shù)據(jù)倉庫,由數(shù)據(jù)集市組合成企業(yè)的數(shù)據(jù)倉庫。但是,在建立第一個數(shù)據(jù)集市前,架構(gòu)師首先要做的就是設(shè)計出在整個企業(yè)內(nèi)具有統(tǒng)一解釋的標準化的維度和事實,即一致性維度和一致性事實。而開發(fā)團隊必須嚴格的按照這個體系結(jié)構(gòu)來進行數(shù)據(jù)集市的迭代開發(fā)。


一致性維度就好比企業(yè)范圍內(nèi)的一組總線,不同數(shù)據(jù)集市的事實的就好比插在這組總線上的元件。這也是稱之為總線架構(gòu)的原因。


實際設(shè)計過程中,我們通常把總線架構(gòu)列表成矩陣的形式,其中列為一致性維度,行為不同的業(yè)務(wù)處理過程,即事實,在交叉點上打上標記表示該業(yè)務(wù)處理過程與該維度相關(guān)。這個矩陣也稱為總線矩陣(Bus Matrix)。


總線架構(gòu)和一致性維度、一致性事實共同組成了Kimball的多維體系結(jié)構(gòu)的基礎(chǔ),也建立了一套可以逐步建立數(shù)據(jù)倉庫的方法論。由于總線架構(gòu)是多維體系結(jié)構(gòu)的核心,所以我們有時就把多維體系結(jié)構(gòu)直接稱為總線架構(gòu)。


總線矩陣

通常,總線矩陣的一行會產(chǎn)生幾個相關(guān)的事實表,由此可以從不同角度跟蹤業(yè)務(wù)過程。訂單業(yè)務(wù)過程可能會有行項級別的訂單事務(wù)事實表和訂單級別的訂單快照事實表。這兩種基于訂單的維度模型同屬于訂單業(yè)務(wù)過程,這種分組稱為業(yè)務(wù)過程維度模型。


二、數(shù)倉概念之間關(guān)系

實體表,事實表,維度表之間的關(guān)系

在Kimball維度建模中有維度與事實,在Inmon范式建模中有實體與關(guān)系,如果我們分開兩種建模方式看這些概念比較容易理解。但是目前也出現(xiàn)了不少混合建模方式,兩種建模方式結(jié)合起來看,這些概念是不是容易記憶混亂,尤其事實表和實體表,它們之間到底有怎樣區(qū)別與聯(lián)系,先看下它們各自概念:


維度表

維度表可以看成是用戶用來分析一個事實的窗口,它里面的數(shù)據(jù)應(yīng)該是對事實的各個方面描述,比如時間維度表,地域維度表,維度表是事實表的一個分析角度。


事實表

事實表其實就是通過各種維度和一些指標值的組合來確定一個事實的,比如通過時間維度,地域組織維度,指標值可以去確定在某時某地的一些指標值怎么樣的事實。事實表的每一條數(shù)據(jù)都是幾條維度表的數(shù)據(jù)和指標值交匯而得到的。


實體表

實體表就是一個實際對象的表,實體表放的數(shù)據(jù)一定是一條條客觀存在的事物數(shù)據(jù),比如說各種商品,它就是客觀存在的,所以可以將其設(shè)計一個實體表。實時表只描述各個事物,并不存在具體的事實,所以也有人稱實體表是無事實的事實表。


舉個例子:比如說手機商場中有蘋果手機,華為手機等各品牌各型號的手機,這些數(shù)據(jù)可以組成一個手機實體表,但是表中沒有可度量的數(shù)據(jù)。某天蘋果手機賣了15臺,華為手機賣了20臺,這些手機銷售數(shù)據(jù)屬于事實,組成一個事實表。這樣就可以使用日期維度表和地域維度表對這個事實表進行各種維度分析。


指標與標簽的區(qū)別

概念不同

指標是用來定義、評價和描述特定事物的一種標準或方式。比如:新增用戶數(shù)、累計用戶數(shù)、用戶活躍率等是衡量用戶發(fā)展情況的指標;


標簽是人為設(shè)定的、根據(jù)業(yè)務(wù)場景需求,對目標對象運用一定的算法得到的高度精煉的特征標識??梢姌撕炇墙?jīng)過人為再加工后的結(jié)果,如網(wǎng)紅、白富美、蘿莉。


構(gòu)成不同

指標名稱是對事物質(zhì)與量兩方面特點的命名;指標取值是指標在具體時間、地域、條件下的數(shù)量表現(xiàn),如人的體重,指標名稱是體重,指標的取值就是120斤;


標簽名稱通常都是形容詞或形容詞+名詞的結(jié)構(gòu),標簽一般是不可量化的,通常是孤立的,除了基礎(chǔ)類標簽,通過一定算法加工出來的標簽一般都沒有單位和量綱。如將超過200斤的稱為大胖子。


分類不同

對指標的分類:

按照指標計算邏輯,可以將指標分為原子指標、派生指標、衍生指標三種類型;


按照對事件描述內(nèi)容的不同,分為過程性指標和結(jié)果性指標;


對標簽的分類:

按照標簽的變化性分為靜態(tài)標簽和動態(tài)標簽;


按照標簽的指代和評估指標的不同,可分為定性標簽和定量標簽;


指標最擅長的應(yīng)用是監(jiān)測、分析、評價和建模。

標簽最擅長的應(yīng)用是標注、刻畫、分類和特征提取。

特別需要指出的是,由于對結(jié)果的標注也是一種標簽,所以在自然語言處理和機器學(xué)習(xí)相關(guān)的算法應(yīng)用場景下,標簽對于監(jiān)督式學(xué)習(xí)有重要價值,只是單純的指標難以做到的。而指標在任務(wù)分配、績效管理等領(lǐng)域的作用,也是標簽無法做到的。

維度和指標區(qū)別與聯(lián)系

維度就是數(shù)據(jù)的觀察角度,即從哪個角度去分析問題,看待問題。


指標就是從維度的基礎(chǔ)上去衡算這個結(jié)果的值。


維度一般是一個離散的值,比如時間或地域維度上每一個獨立的日期或地區(qū)。因此統(tǒng)計時,可以把維度相同記錄的聚合在一起,應(yīng)用聚合函數(shù)做累加、均值、最大值、最小值等聚合計算。


指標就是被聚合的通計算,即聚合運算的結(jié)果,一般是一個連續(xù)的值。


自然鍵與代理鍵在數(shù)倉的使用區(qū)別

數(shù)倉工具箱中說維度表的唯一主鍵應(yīng)該是代理鍵而不應(yīng)該是自然鍵。有時建模人員不愿意放棄使用自然鍵,因為他們希望與操作型代碼查詢事實表,而不希望與維度表做連接操作。然而,應(yīng)該避免使用包含業(yè)務(wù)含義的多維鍵,因為不管我們做出任何假設(shè)最終都可能變得無效,因為我們控制不了業(yè)務(wù)庫的變動。


所以數(shù)據(jù)倉庫中維度表與事實表的每個連接應(yīng)該基于無實際含義的整數(shù)代理鍵。避免使用自然鍵作為維度表的主鍵。


SKU與SPU

SPU = Standard Product Unit (標準化產(chǎn)品單元)

SPU是商品信息聚合的最小單位,是一組可復(fù)用、易檢索的標準化信息的集合,該集合描述了一個產(chǎn)品的特性。通俗點講,屬性值、特性相同的商品就可以稱為一個SPU。


SKU=stock keeping unit(庫存量單位)

SKU即庫存進出計量的單位, 可以是以件、盒、托盤等為單位。


你想要一臺iPhone13, 店員也會再繼續(xù)問: 你想要什么iPhone 13? 64G 銀色?128G 白色?每一臺iPhone 13的毛重都是400.00g,產(chǎn)地也都是中國大陸,這兩個屬性就屬于spu屬性。


而容量和顏色,這種會影響價格和庫存的(比如64G與128G的價格不同,128G白色還有貨,綠色賣完了)屬性就是sku屬性。


spu屬性:

1、毛重420.00 g


2、產(chǎn)地中國大陸


sku屬性:

1、容量: 16G, 64G, 128G


2、顏色: 銀、白、玫瑰金




作者:薛秋艷


歡迎關(guān)注微信公眾號 :大數(shù)據(jù)球球