數(shù)據(jù)倉(cāng)庫(kù)相關(guān)術(shù)語(yǔ)

數(shù)據(jù)倉(cāng)庫(kù)相關(guān)術(shù)語(yǔ)

數(shù)據(jù)倉(cāng)庫(kù)

數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)支持管理決策的數(shù)據(jù)集合。數(shù)據(jù)是面向主題的、集成的、不易丟失的并且是時(shí)變的。數(shù)據(jù)倉(cāng)庫(kù)是所有操作環(huán)境和外部數(shù)據(jù)源的快照集合。它并不需要非常精確,因?yàn)樗仨氃谔囟ǖ臅r(shí)間基礎(chǔ)上從操作環(huán)境中提取出來(lái)。


數(shù)據(jù)集市

數(shù)據(jù)倉(cāng)庫(kù)只限于單個(gè)主題的區(qū)域,例如顧客、部門、地點(diǎn)等。數(shù)據(jù)集市在從數(shù)據(jù)倉(cāng)庫(kù)獲取數(shù)據(jù)時(shí)可以依賴于數(shù)據(jù)倉(cāng)庫(kù),或者當(dāng)它們從操作系統(tǒng)中獲取數(shù)據(jù)時(shí)就不依賴于數(shù)據(jù)倉(cāng)庫(kù)。


事實(shí)

事實(shí)是數(shù)據(jù)倉(cāng)庫(kù)中的信息單元,也是多維空間中的一個(gè)單元,受分析單元的限制。事實(shí)存儲(chǔ)于一張表中(當(dāng)使用關(guān)系數(shù)據(jù)庫(kù)時(shí))或者是多維數(shù)據(jù)庫(kù)中的一個(gè)單元。每個(gè)事實(shí)包括關(guān)于事實(shí)(銷售額,銷售量,成本,毛利,毛利率等)的基本信息,并且與維度相關(guān)。在某些情況下,當(dāng)所有的必要信息都存儲(chǔ)于維度中時(shí),單純的事實(shí)出現(xiàn)就是對(duì)于數(shù)據(jù)倉(cāng)庫(kù)足夠的信息。


維度

維度是用來(lái)反映業(yè)務(wù)的一類屬性,這類屬性的集合構(gòu)成一個(gè)維度。例如,某個(gè)地理維度可能包括國(guó)家、地區(qū)、省以及城市的級(jí)別。一個(gè)時(shí)間維度可能包括年、季、月、周、日的級(jí)別。


級(jí)別

維度層次結(jié)構(gòu)的一個(gè)元素。級(jí)別描述了數(shù)據(jù)的層次結(jié)構(gòu),從數(shù)據(jù)的最高(匯總程度最大)級(jí)別直到最低(最詳細(xì))級(jí)別(如大分類-中分類-小分類-細(xì)分類)。級(jí)別僅存在于維度內(nèi)。級(jí)別基于維度表中的列或維度中的成員屬性。


數(shù)據(jù)清洗

對(duì)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)無(wú)用的或者不符合數(shù)據(jù)格式規(guī)范的數(shù)據(jù)稱之為臟數(shù)據(jù)。清洗的過(guò)程就是清除臟數(shù)據(jù)的過(guò)程。


數(shù)據(jù)采集

數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中后端處理的一部分。數(shù)據(jù)采集過(guò)程是指從業(yè)務(wù)系統(tǒng)中收集與數(shù)據(jù)倉(cāng)庫(kù)各指標(biāo)有關(guān)的數(shù)據(jù)。


數(shù)據(jù)轉(zhuǎn)換

解釋業(yè)務(wù)數(shù)據(jù)并修改其內(nèi)容,使之符合數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)格式規(guī)范,并放入數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)存儲(chǔ)介質(zhì)中。數(shù)據(jù)轉(zhuǎn)換包括數(shù)據(jù)存儲(chǔ)格式的轉(zhuǎn)換以及數(shù)據(jù)表示符的轉(zhuǎn)換(如產(chǎn)品代碼到產(chǎn)品名稱的轉(zhuǎn)換)。


聯(lián)機(jī)分析處理(OLAP OnlineAnalytical Processing )

OLAP是一種多維分析技術(shù),用來(lái)滿足決策用戶在大量的業(yè)務(wù)數(shù)據(jù)中,從多角度探索業(yè)務(wù)活動(dòng)的規(guī)律性、市場(chǎng)的運(yùn)作趨勢(shì)的分析需求,并輔助他們進(jìn)行戰(zhàn)略發(fā)展決策的制定。按照數(shù)據(jù)的存儲(chǔ)方式分OLAP又分為ROLAP、MOLAP和HOLAP。在客戶信息數(shù)據(jù)倉(cāng)庫(kù)CCDW的數(shù)據(jù)環(huán)境下,OLAP提供上鉆、下鉆、切片、旋轉(zhuǎn)等在線分析機(jī)制。完成的功能包括多角度實(shí)時(shí)查詢、簡(jiǎn)單的數(shù)據(jù)分析,并輔之于各種圖形展示分析結(jié)果。


切片

一種用來(lái)在數(shù)據(jù)倉(cāng)庫(kù)中將一個(gè)維度中的分析空間限制為數(shù)據(jù)子集的技術(shù)。


切塊

一種用來(lái)在數(shù)據(jù)倉(cāng)庫(kù)中將多個(gè)維度中的分析空間限制為數(shù)據(jù)子集的技術(shù)。


星型模式

是數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用程序的最佳設(shè)計(jì)模式。它的命名是因其在物理上表現(xiàn)為中心實(shí)體,典型內(nèi)容包括指標(biāo)數(shù)據(jù)、輻射數(shù)據(jù),通常是有助于瀏覽和聚集指標(biāo)數(shù)據(jù)的維度。星形圖模型得到的結(jié)果常常是查詢式數(shù)據(jù)結(jié)構(gòu),能夠?yàn)榭焖夙憫?yīng)用戶的查詢要求提供最優(yōu)的數(shù)據(jù)結(jié)構(gòu)。星形圖還常常產(chǎn)生一種包含維度數(shù)據(jù)和指標(biāo)數(shù)據(jù)的兩層模型。


雪花模式

指一種擴(kuò)展的星形圖。星形圖通常生成一個(gè)兩層結(jié)構(gòu),即只有維度和指標(biāo),雪花圖生成了附加層。實(shí)際數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)建設(shè)過(guò)程中,通常只擴(kuò)展三層:維度(維度實(shí)體)、指標(biāo)(指標(biāo)實(shí)體)和相關(guān)的描述數(shù)據(jù)(類目細(xì)節(jié)實(shí)體);超過(guò)三層的雪花圖模型在數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中應(yīng)該避免。因?yàn)樗鼈冮_始像更傾向于支持OLTP 應(yīng)用程序的規(guī)格化結(jié)構(gòu),而不是為數(shù)據(jù)倉(cāng)庫(kù)和OLAP應(yīng)用程序而優(yōu)化的非格式化結(jié)構(gòu)。


粒度

粒度將直接決定所構(gòu)建倉(cāng)庫(kù)系統(tǒng)能夠提供決策支持的細(xì)節(jié)級(jí)別。粒度越高表示倉(cāng)庫(kù)中的數(shù)據(jù)較粗,反之,較細(xì)。粒度是與具體指標(biāo)相關(guān)的,具體表現(xiàn)在描述此指標(biāo)的某些可分層次維的維值上。例如,時(shí)間維度,時(shí)間可以分成年、季、月、周、日等。數(shù)據(jù)倉(cāng)庫(kù)模型中所存儲(chǔ)的數(shù)據(jù)的粒度將對(duì)信息系統(tǒng)的多方面產(chǎn)生影響。事實(shí)表中以各種維度的什么層次作為最細(xì)粒度,將決定存儲(chǔ)的數(shù)據(jù)能否滿足信息分析的功能需求,而粒度的層次劃分、以及聚合表中粒度的選擇將直接影響查詢的響應(yīng)時(shí)間。


度量

度量是業(yè)務(wù)流程節(jié)點(diǎn)上的一個(gè)數(shù)值。比如銷量,價(jià)格,成本等等。


事實(shí)表中的度量可分為三類:完全可加,半可加,不可加。


完全可加的度量是最靈活,最有用的,比如說(shuō)銷量,銷售額等,可進(jìn)行任意維度匯總;

半可加的度量可以對(duì)某些維度匯總,但不能對(duì)所有維度匯總,差額是常見的半可加度量,它除了時(shí)間維度外,可以跨所有維度進(jìn)行加法操作;

還有一種是完全不可加的,例如:比率。對(duì)于這類非可加度量,一種好的方法是,盡可能存儲(chǔ)非可加度量的完全可加分量,并在計(jì)算出最終的非可加事實(shí)前,將這些分量匯總到最終的結(jié)果集中。

度量值

在多維數(shù)據(jù)集中,度量值是一組值,這些值基于多維數(shù)據(jù)集的事實(shí)數(shù)據(jù)表中的一列,而且通常為數(shù)字。此外,度量值是所分析的多維數(shù)據(jù)集的中心值。即,度量值是最終用戶瀏覽多維數(shù)據(jù)集時(shí)重點(diǎn)查看的數(shù)字?jǐn)?shù)據(jù)(如銷售、毛利、成本)。


口徑

口徑就是取數(shù)邏輯(如何取數(shù)的),比如要取的數(shù)是10歲以下兒童中男孩的平均身高,這就是統(tǒng)計(jì)的口徑。


指標(biāo)

指標(biāo)是口徑的衡量值,也就是最后的結(jié)果。比如最近七天的訂單量,一個(gè)促銷活動(dòng)的購(gòu)買轉(zhuǎn)化率等。


一個(gè)指標(biāo)具體到計(jì)算實(shí)施,主要有以下幾部分組成:


指標(biāo)加工邏輯,比如count ,sum, avg


維度,比如按部門、地域進(jìn)行指標(biāo)統(tǒng)計(jì),對(duì)應(yīng)sql中的group by


業(yè)務(wù)限定/修飾詞,比如以不同的支付渠道來(lái)算對(duì)應(yīng)的指標(biāo),微信支付的訂單退款率,支付寶支付的訂單退款率 。對(duì)應(yīng)sql中的where。


除此之外,指標(biāo)本身還可以衍生、派生出更多的指標(biāo),基于這些特點(diǎn),可以將指標(biāo)進(jìn)行分類:








原子指標(biāo):

基本業(yè)務(wù)事實(shí),沒(méi)有業(yè)務(wù)限定、沒(méi)有維度。比如訂單表中的訂單量、訂單總金額都算原子指標(biāo);


業(yè)務(wù)方更關(guān)心的指標(biāo),是有實(shí)際業(yè)務(wù)含義,可以直接取數(shù)據(jù)的指標(biāo)。比如店鋪近1天訂單支付金額就是一個(gè)派生指標(biāo),會(huì)被直接在產(chǎn)品上展示給商家看。


但是這個(gè)指標(biāo)卻不能直接從數(shù)倉(cāng)的統(tǒng)一中間層里取數(shù)(因?yàn)闆](méi)有現(xiàn)成的事實(shí)字段,數(shù)倉(cāng)提供的一般都是大寬表)。需要有一個(gè)橋梁連接數(shù)倉(cāng)中間層和業(yè)務(wù)方的指標(biāo)需求,于是便有了派生指標(biāo)


派生指標(biāo)

維度+修飾詞+原子指標(biāo)。店鋪近1天訂單支付金額中店鋪是維度,近1天是一個(gè)時(shí)間類型的修飾詞,支付金額是一個(gè)原子指標(biāo);維度:觀察各項(xiàng)指標(biāo)的角度;修飾詞:維度的一個(gè)或某些值,比如維度性別下,男和女就是2種修飾詞。


衍生指標(biāo)

比如某一個(gè)促銷活動(dòng)的轉(zhuǎn)化率就是衍生指標(biāo),因?yàn)樾枰黉N投放人數(shù)指標(biāo)和促銷訂單數(shù)指標(biāo)進(jìn)行計(jì)算得出。


標(biāo)簽

標(biāo)簽是人為設(shè)定的、根據(jù)業(yè)務(wù)場(chǎng)景需求,對(duì)目標(biāo)對(duì)象運(yùn)用一定的算法得到的高度精煉的特征標(biāo)識(shí)。可見標(biāo)簽是經(jīng)過(guò)人為再加工后的結(jié)果,如網(wǎng)紅、白富美、蘿莉。對(duì)于有歧義的標(biāo)簽,我們內(nèi)部可進(jìn)行標(biāo)簽區(qū)分,比如:蘋果,我們可以定義蘋果指的是水果,蘋果手機(jī)才指的是手機(jī)。


自然鍵

由現(xiàn)實(shí)中已經(jīng)存在的屬性組成的鍵,它在業(yè)務(wù)概念中是唯一的,并具有一定的業(yè)務(wù)含義,比如商品ID,員工ID。


以數(shù)倉(cāng)角度看,來(lái)自于業(yè)務(wù)系統(tǒng)的標(biāo)識(shí)符就是自然鍵,比如業(yè)務(wù)庫(kù)中員工的編號(hào)。


持久鍵

保持永久性不會(huì)發(fā)生變化。有時(shí)也被叫做超自然持久鍵。比如身份證號(hào)屬于持久鍵。


自然鍵和持久鍵區(qū)別:舉個(gè)例子就明白了,比如說(shuō)公司員工離職之后又重新入職,他的自然鍵也就是員工編號(hào)發(fā)生了變化,但是他的持久鍵身份證號(hào)是不變的。


代理鍵

就是不具有業(yè)務(wù)含義的鍵。代理鍵有許多其他的稱呼:無(wú)意義鍵、整數(shù)鍵、非自然鍵、人工鍵、合成鍵等。


代理鍵就是簡(jiǎn)單的以按照順序序列生產(chǎn)的整數(shù)表示。產(chǎn)品行的第1行代理鍵為1,則下一行的代理鍵為2,如此進(jìn)行。代理鍵的作用僅僅是連接維度表和事實(shí)表。


退化維度

退化維度,就是那些看起來(lái)像是事實(shí)表的一個(gè)維度關(guān)鍵字,但實(shí)際上并沒(méi)有對(duì)應(yīng)的維度表,就是維度屬性存儲(chǔ)到事實(shí)表中,這種存儲(chǔ)到事實(shí)表中的維度列被稱為退化維度。與其他存儲(chǔ)在維表中的維度一樣,退化維度也可以用來(lái)進(jìn)行事實(shí)表的過(guò)濾查詢、實(shí)現(xiàn)聚合操作等。


那么究竟怎么定義退化維度呢?比如說(shuō)訂單id,這種量級(jí)很大的維度,沒(méi)必要用一張維度表來(lái)進(jìn)行存儲(chǔ),而我們進(jìn)行數(shù)據(jù)查詢或者數(shù)據(jù)過(guò)濾的時(shí)候又非常需要,所以這種就冗余在事實(shí)表里面,這種就叫退化維度,citycode這種我們也會(huì)冗余在事實(shí)表里面,但是它有對(duì)應(yīng)的維度表,所以它不是退化維度。


下鉆

這是在數(shù)據(jù)分析中常見的概念,下鉆可以理解成增加維的層次,從而可以由粗粒度到細(xì)粒度來(lái)觀察數(shù)據(jù),比如對(duì)產(chǎn)品銷售情況分析時(shí),可以沿著時(shí)間維從年到月到日更細(xì)粒度的觀察數(shù)據(jù)。從年的維度可以下鉆到月的維度、日的維度等。


上卷

知道了下鉆,上卷就容易理解了,它倆是相逆的操作,所以上卷可以理解為刪掉維的某些層,由細(xì)粒度到粗粒度觀察數(shù)據(jù)的操作或沿著維的層次向上聚合匯總數(shù)據(jù)。


T+0與T+1

概念最早來(lái)自于股市。T+0和T+1交易制度是中國(guó)股市的一種交易制度,T+0交易指的是當(dāng)天買入股票可當(dāng)天賣出,當(dāng)天賣出股票又可當(dāng)天買入。


在大數(shù)據(jù)中:T+0代表實(shí)時(shí)處理的數(shù)據(jù)。T+1代表處理昨天的數(shù)據(jù)。


數(shù)據(jù)挖掘

數(shù)據(jù)挖掘是指利用復(fù)雜的模式識(shí)別技術(shù)從大量數(shù)據(jù)中找到有意義的模式、提取見解。這與我們前文討論的使用個(gè)人數(shù)據(jù)做分析的術(shù)語(yǔ)“分析”密切相關(guān)。為了提取出有意義的模式,數(shù)據(jù)挖掘者使用統(tǒng)計(jì)學(xué)(是呀,好老的數(shù)學(xué))、機(jī)器學(xué)習(xí)算法和人工智能。


數(shù)據(jù)科學(xué)家

我們談?wù)摰氖且粋€(gè)如此熱門的職業(yè)!數(shù)據(jù)科學(xué)家們可以通過(guò)提取原始數(shù)據(jù)(難道是從前文所說(shuō)的數(shù)據(jù)湖中提取的?),處理數(shù)據(jù),然后提出新見解。數(shù)據(jù)科學(xué)家所需具備的一些技能與超人無(wú)異:分析、統(tǒng)計(jì)、計(jì)算機(jī)科學(xué)、創(chuàng)造力、故事講述和理解業(yè)務(wù)環(huán)境。難怪他們能獲得如此高的薪水報(bào)酬。


總線架構(gòu)

維度建模的數(shù)據(jù)倉(cāng)庫(kù)中,有一個(gè)概念叫Bus Architecture,中文一般翻譯為“總線架構(gòu)”??偩€架構(gòu)是Kimball的多維體系結(jié)構(gòu)(MD)中的三個(gè)關(guān)鍵性概念之一,另兩個(gè)是一致性維度(Conformed Dimension)和一致性事實(shí)(Conformed Fact)。


在多維體系結(jié)構(gòu)(MD) 的數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)中,主導(dǎo)思想是分步建立數(shù)據(jù)倉(cāng)庫(kù),由數(shù)據(jù)集市組合成企業(yè)的數(shù)據(jù)倉(cāng)庫(kù)。但是,在建立第一個(gè)數(shù)據(jù)集市前,架構(gòu)師首先要做的就是設(shè)計(jì)出在整個(gè)企業(yè)內(nèi)具有統(tǒng)一解釋的標(biāo)準(zhǔn)化的維度和事實(shí),即一致性維度和一致性事實(shí)。而開發(fā)團(tuán)隊(duì)必須嚴(yán)格的按照這個(gè)體系結(jié)構(gòu)來(lái)進(jìn)行數(shù)據(jù)集市的迭代開發(fā)。


一致性維度就好比企業(yè)范圍內(nèi)的一組總線,不同數(shù)據(jù)集市的事實(shí)的就好比插在這組總線上的元件。這也是稱之為總線架構(gòu)的原因。


實(shí)際設(shè)計(jì)過(guò)程中,我們通常把總線架構(gòu)列表成矩陣的形式,其中列為一致性維度,行為不同的業(yè)務(wù)處理過(guò)程,即事實(shí),在交叉點(diǎn)上打上標(biāo)記表示該業(yè)務(wù)處理過(guò)程與該維度相關(guān)。這個(gè)矩陣也稱為總線矩陣(Bus Matrix)。


總線架構(gòu)和一致性維度、一致性事實(shí)共同組成了Kimball的多維體系結(jié)構(gòu)的基礎(chǔ),也建立了一套可以逐步建立數(shù)據(jù)倉(cāng)庫(kù)的方法論。由于總線架構(gòu)是多維體系結(jié)構(gòu)的核心,所以我們有時(shí)就把多維體系結(jié)構(gòu)直接稱為總線架構(gòu)。


總線矩陣

通常,總線矩陣的一行會(huì)產(chǎn)生幾個(gè)相關(guān)的事實(shí)表,由此可以從不同角度跟蹤業(yè)務(wù)過(guò)程。訂單業(yè)務(wù)過(guò)程可能會(huì)有行項(xiàng)級(jí)別的訂單事務(wù)事實(shí)表和訂單級(jí)別的訂單快照事實(shí)表。這兩種基于訂單的維度模型同屬于訂單業(yè)務(wù)過(guò)程,這種分組稱為業(yè)務(wù)過(guò)程維度模型。


二、數(shù)倉(cāng)概念之間關(guān)系

實(shí)體表,事實(shí)表,維度表之間的關(guān)系

在Kimball維度建模中有維度與事實(shí),在Inmon范式建模中有實(shí)體與關(guān)系,如果我們分開兩種建模方式看這些概念比較容易理解。但是目前也出現(xiàn)了不少混合建模方式,兩種建模方式結(jié)合起來(lái)看,這些概念是不是容易記憶混亂,尤其事實(shí)表和實(shí)體表,它們之間到底有怎樣區(qū)別與聯(lián)系,先看下它們各自概念:


維度表

維度表可以看成是用戶用來(lái)分析一個(gè)事實(shí)的窗口,它里面的數(shù)據(jù)應(yīng)該是對(duì)事實(shí)的各個(gè)方面描述,比如時(shí)間維度表,地域維度表,維度表是事實(shí)表的一個(gè)分析角度。


事實(shí)表

事實(shí)表其實(shí)就是通過(guò)各種維度和一些指標(biāo)值的組合來(lái)確定一個(gè)事實(shí)的,比如通過(guò)時(shí)間維度,地域組織維度,指標(biāo)值可以去確定在某時(shí)某地的一些指標(biāo)值怎么樣的事實(shí)。事實(shí)表的每一條數(shù)據(jù)都是幾條維度表的數(shù)據(jù)和指標(biāo)值交匯而得到的。


實(shí)體表

實(shí)體表就是一個(gè)實(shí)際對(duì)象的表,實(shí)體表放的數(shù)據(jù)一定是一條條客觀存在的事物數(shù)據(jù),比如說(shuō)各種商品,它就是客觀存在的,所以可以將其設(shè)計(jì)一個(gè)實(shí)體表。實(shí)時(shí)表只描述各個(gè)事物,并不存在具體的事實(shí),所以也有人稱實(shí)體表是無(wú)事實(shí)的事實(shí)表。


舉個(gè)例子:比如說(shuō)手機(jī)商場(chǎng)中有蘋果手機(jī),華為手機(jī)等各品牌各型號(hào)的手機(jī),這些數(shù)據(jù)可以組成一個(gè)手機(jī)實(shí)體表,但是表中沒(méi)有可度量的數(shù)據(jù)。某天蘋果手機(jī)賣了15臺(tái),華為手機(jī)賣了20臺(tái),這些手機(jī)銷售數(shù)據(jù)屬于事實(shí),組成一個(gè)事實(shí)表。這樣就可以使用日期維度表和地域維度表對(duì)這個(gè)事實(shí)表進(jìn)行各種維度分析。


指標(biāo)與標(biāo)簽的區(qū)別

概念不同

指標(biāo)是用來(lái)定義、評(píng)價(jià)和描述特定事物的一種標(biāo)準(zhǔn)或方式。比如:新增用戶數(shù)、累計(jì)用戶數(shù)、用戶活躍率等是衡量用戶發(fā)展情況的指標(biāo);


標(biāo)簽是人為設(shè)定的、根據(jù)業(yè)務(wù)場(chǎng)景需求,對(duì)目標(biāo)對(duì)象運(yùn)用一定的算法得到的高度精煉的特征標(biāo)識(shí)。可見標(biāo)簽是經(jīng)過(guò)人為再加工后的結(jié)果,如網(wǎng)紅、白富美、蘿莉。


構(gòu)成不同

指標(biāo)名稱是對(duì)事物質(zhì)與量?jī)煞矫嫣攸c(diǎn)的命名;指標(biāo)取值是指標(biāo)在具體時(shí)間、地域、條件下的數(shù)量表現(xiàn),如人的體重,指標(biāo)名稱是體重,指標(biāo)的取值就是120斤;


標(biāo)簽名稱通常都是形容詞或形容詞+名詞的結(jié)構(gòu),標(biāo)簽一般是不可量化的,通常是孤立的,除了基礎(chǔ)類標(biāo)簽,通過(guò)一定算法加工出來(lái)的標(biāo)簽一般都沒(méi)有單位和量綱。如將超過(guò)200斤的稱為大胖子。


分類不同

對(duì)指標(biāo)的分類:

按照指標(biāo)計(jì)算邏輯,可以將指標(biāo)分為原子指標(biāo)、派生指標(biāo)、衍生指標(biāo)三種類型;


按照對(duì)事件描述內(nèi)容的不同,分為過(guò)程性指標(biāo)和結(jié)果性指標(biāo);


對(duì)標(biāo)簽的分類:

按照標(biāo)簽的變化性分為靜態(tài)標(biāo)簽和動(dòng)態(tài)標(biāo)簽;


按照標(biāo)簽的指代和評(píng)估指標(biāo)的不同,可分為定性標(biāo)簽和定量標(biāo)簽;


指標(biāo)最擅長(zhǎng)的應(yīng)用是監(jiān)測(cè)、分析、評(píng)價(jià)和建模。

標(biāo)簽最擅長(zhǎng)的應(yīng)用是標(biāo)注、刻畫、分類和特征提取。

特別需要指出的是,由于對(duì)結(jié)果的標(biāo)注也是一種標(biāo)簽,所以在自然語(yǔ)言處理和機(jī)器學(xué)習(xí)相關(guān)的算法應(yīng)用場(chǎng)景下,標(biāo)簽對(duì)于監(jiān)督式學(xué)習(xí)有重要價(jià)值,只是單純的指標(biāo)難以做到的。而指標(biāo)在任務(wù)分配、績(jī)效管理等領(lǐng)域的作用,也是標(biāo)簽無(wú)法做到的。

維度和指標(biāo)區(qū)別與聯(lián)系

維度就是數(shù)據(jù)的觀察角度,即從哪個(gè)角度去分析問(wèn)題,看待問(wèn)題。


指標(biāo)就是從維度的基礎(chǔ)上去衡算這個(gè)結(jié)果的值。


維度一般是一個(gè)離散的值,比如時(shí)間或地域維度上每一個(gè)獨(dú)立的日期或地區(qū)。因此統(tǒng)計(jì)時(shí),可以把維度相同記錄的聚合在一起,應(yīng)用聚合函數(shù)做累加、均值、最大值、最小值等聚合計(jì)算。


指標(biāo)就是被聚合的通計(jì)算,即聚合運(yùn)算的結(jié)果,一般是一個(gè)連續(xù)的值。


自然鍵與代理鍵在數(shù)倉(cāng)的使用區(qū)別

數(shù)倉(cāng)工具箱中說(shuō)維度表的唯一主鍵應(yīng)該是代理鍵而不應(yīng)該是自然鍵。有時(shí)建模人員不愿意放棄使用自然鍵,因?yàn)樗麄兿Mc操作型代碼查詢事實(shí)表,而不希望與維度表做連接操作。然而,應(yīng)該避免使用包含業(yè)務(wù)含義的多維鍵,因?yàn)椴还芪覀冏龀鋈魏渭僭O(shè)最終都可能變得無(wú)效,因?yàn)槲覀兛刂撇涣藰I(yè)務(wù)庫(kù)的變動(dòng)。


所以數(shù)據(jù)倉(cāng)庫(kù)中維度表與事實(shí)表的每個(gè)連接應(yīng)該基于無(wú)實(shí)際含義的整數(shù)代理鍵。避免使用自然鍵作為維度表的主鍵。


SKU與SPU

SPU = Standard Product Unit (標(biāo)準(zhǔn)化產(chǎn)品單元)

SPU是商品信息聚合的最小單位,是一組可復(fù)用、易檢索的標(biāo)準(zhǔn)化信息的集合,該集合描述了一個(gè)產(chǎn)品的特性。通俗點(diǎn)講,屬性值、特性相同的商品就可以稱為一個(gè)SPU。


SKU=stock keeping unit(庫(kù)存量單位)

SKU即庫(kù)存進(jìn)出計(jì)量的單位, 可以是以件、盒、托盤等為單位。


你想要一臺(tái)iPhone13, 店員也會(huì)再繼續(xù)問(wèn): 你想要什么iPhone 13? 64G 銀色?128G 白色?每一臺(tái)iPhone 13的毛重都是400.00g,產(chǎn)地也都是中國(guó)大陸,這兩個(gè)屬性就屬于spu屬性。


而容量和顏色,這種會(huì)影響價(jià)格和庫(kù)存的(比如64G與128G的價(jià)格不同,128G白色還有貨,綠色賣完了)屬性就是sku屬性。


spu屬性:

1、毛重420.00 g


2、產(chǎn)地中國(guó)大陸


sku屬性:

1、容量: 16G, 64G, 128G


2、顏色: 銀、白、玫瑰金




作者:薛秋艷


歡迎關(guān)注微信公眾號(hào) :大數(shù)據(jù)球球