關(guān)于數(shù)據(jù)質(zhì)量(DQ),你應(yīng)該知道的事【擴(kuò)張版建議收藏】

“前些天領(lǐng)導(dǎo)問(wèn)我,以前你們公司的數(shù)據(jù)質(zhì)量都是怎么做的,需要關(guān)注哪里,這個(gè)我想了一下,準(zhǔn)備寫(xiě)篇文章整理一下。大家也可以幫我參考一下,以后多多改正?!?br>
基礎(chǔ)概念

什么是數(shù)據(jù)質(zhì)量?

數(shù)據(jù)質(zhì)量定義維度

數(shù)據(jù)質(zhì)量評(píng)估步驟

問(wèn)題數(shù)據(jù)分類(lèi)處理

數(shù)據(jù)質(zhì)量問(wèn)題根源

數(shù)據(jù)質(zhì)量四個(gè)保障原則

完整性

準(zhǔn)確性

一致性

及時(shí)性

數(shù)據(jù)質(zhì)量六大基本要素

數(shù)據(jù)質(zhì)量管理的方法

1、建立質(zhì)量管控流程和規(guī)范

2、執(zhí)行管理工作

3、檢查數(shù)據(jù)質(zhì)量

4、監(jiān)控?cái)?shù)據(jù)質(zhì)量,控制管理程序和績(jī)效

數(shù)據(jù)分析的方面

數(shù)據(jù)質(zhì)量檢核和監(jiān)控

數(shù)據(jù)質(zhì)量的監(jiān)控指標(biāo)一般有哪些

數(shù)據(jù)質(zhì)量問(wèn)題分析及報(bào)告

數(shù)據(jù)質(zhì)量分析

數(shù)據(jù)質(zhì)量分析報(bào)告

基礎(chǔ)概念
什么是數(shù)據(jù)質(zhì)量?
按照國(guó)際數(shù)據(jù)管理協(xié)會(huì)的《數(shù)據(jù)管理知識(shí)手冊(cè)》中規(guī)定,數(shù)據(jù)質(zhì)量(DQ)是“既指與數(shù)據(jù)有關(guān)的特征,也指用于衡量或改進(jìn)數(shù)據(jù)質(zhì)量的過(guò)程。”但要深入理解數(shù)據(jù)質(zhì)量,需要切分不同層次或維度。

數(shù)據(jù)質(zhì)量定義維度
如果從用戶(hù)層級(jí)定義數(shù)據(jù)質(zhì)量,就是滿(mǎn)足特定用戶(hù)預(yù)期需要的一種程度。

如果從數(shù)據(jù)本身定義數(shù)據(jù)質(zhì)量,即從數(shù)據(jù)質(zhì)量的指示器和參數(shù)指標(biāo)等方面來(lái)衡量其優(yōu)劣。

如果從數(shù)據(jù)約束關(guān)系定義數(shù)據(jù)質(zhì)量,即從數(shù)據(jù)的原子性、數(shù)據(jù)的關(guān)聯(lián)性及對(duì)數(shù)據(jù)的約束規(guī)則來(lái)度量數(shù)據(jù)質(zhì)量。

如果從數(shù)據(jù)過(guò)程定義數(shù)據(jù)質(zhì)量,需要從數(shù)據(jù)能被正確使用、存儲(chǔ)、傳輸?shù)确矫娑x質(zhì)量。

數(shù)據(jù)質(zhì)量評(píng)估步驟
第一步,確定需要做數(shù)據(jù)質(zhì)量監(jiān)控的數(shù)據(jù)指標(biāo)項(xiàng),通常是對(duì)數(shù)據(jù)運(yùn)營(yíng)和相關(guān)管理報(bào)告至關(guān)重要的數(shù)據(jù)項(xiàng)。

第二步,評(píng)估需要使用的數(shù)據(jù)質(zhì)量維度及其權(quán)重值。

第三步,對(duì)于每個(gè)數(shù)據(jù)質(zhì)量維度,定義表示標(biāo)準(zhǔn)質(zhì)量和質(zhì)量差數(shù)據(jù)的值和范圍。特別需要注意的是:同一個(gè)指標(biāo)名稱(chēng),可能會(huì)有不同的度量規(guī)則,因此需要執(zhí)行許多不同的數(shù)據(jù)質(zhì)量評(píng)估。

第四步,反復(fù)查看并確認(rèn)數(shù)據(jù)質(zhì)量是否可以被接受。

第五步,在適當(dāng)數(shù)據(jù)流轉(zhuǎn)中采取糾正措施,例如:清理數(shù)據(jù)并改進(jìn)數(shù)據(jù)處理流程,以防止問(wèn)題再次發(fā)生。

最后,還需要定期重復(fù)上述步驟,以監(jiān)控?cái)?shù)據(jù)質(zhì)量趨勢(shì)。在時(shí)間維度上分可分為3類(lèi),分別為歷史數(shù)據(jù)、當(dāng)前數(shù)據(jù)和未來(lái)數(shù)據(jù)。在解決不同種類(lèi)的數(shù)據(jù)質(zhì)量問(wèn)題時(shí),應(yīng)采取不同的處理方式。

對(duì)歷史數(shù)據(jù)的處理
如果你拿著歷史數(shù)據(jù),找業(yè)務(wù)部門(mén)給你做整改,業(yè)務(wù)部門(mén)通常以“當(dāng)前的數(shù)據(jù)問(wèn)題都處理不過(guò)來(lái),哪###  數(shù)據(jù)質(zhì)量提升方法

明確業(yè)務(wù)需求并從需求開(kāi)始控制數(shù)據(jù)質(zhì)量
要想真正解決數(shù)據(jù)質(zhì)量問(wèn)題,應(yīng)該從需求開(kāi)始,銀行往往在定義清楚業(yè)務(wù)需求后忽略對(duì)數(shù)據(jù)質(zhì)量的控制,而只對(duì)已經(jīng)產(chǎn)生的數(shù)據(jù)做檢查,然后再將錯(cuò)誤數(shù)據(jù)剔除,這種方法治標(biāo)不治本,不能從根本上解決問(wèn)題。銀行需要將數(shù)據(jù)質(zhì)量的控制從需求開(kāi)始集成到分析人員、模型設(shè)計(jì)人員與開(kāi)發(fā)人員的工作環(huán)境中,讓大家在日常的工作環(huán)境中自動(dòng)控制數(shù)據(jù)質(zhì)量,在數(shù)據(jù)的全生命周期中控制數(shù)據(jù)質(zhì)量。

建立數(shù)據(jù)質(zhì)量管控機(jī)制
從業(yè)務(wù)出發(fā)做問(wèn)題定義,由工具自動(dòng)、及時(shí)發(fā)現(xiàn)問(wèn)題,明確問(wèn)題責(zé)任人,通過(guò)郵件、短信等方式進(jìn)行通知,保證問(wèn)題及時(shí)通知到責(zé)任人。跟蹤問(wèn)題整改進(jìn)度,保證數(shù)據(jù)質(zhì)量問(wèn)題全過(guò)程的管理。

比如,探查數(shù)據(jù)內(nèi)容、結(jié)構(gòu)和異常通過(guò)探查,可以識(shí)別數(shù)據(jù)的優(yōu)勢(shì)和弱勢(shì),幫助企業(yè)確定業(yè)務(wù)實(shí)施計(jì)劃。一個(gè)關(guān)鍵目標(biāo)就是明確指出數(shù)據(jù)錯(cuò)誤和問(wèn)題,例如將會(huì)給業(yè)務(wù)流程帶來(lái)威脅的不一致和冗余。

建立數(shù)據(jù)質(zhì)量度量并明確目標(biāo)企業(yè)需建立一個(gè)共同的平臺(tái)并完善度量標(biāo)準(zhǔn),用戶(hù)可以在數(shù)據(jù)質(zhì)量記分卡中跟蹤度量標(biāo)準(zhǔn)的達(dá)標(biāo)情況,并通過(guò)電子郵件發(fā)送URL來(lái)與相關(guān)人員隨時(shí)進(jìn)行共享。

設(shè)計(jì)和實(shí)施數(shù)據(jù)質(zhì)量業(yè)務(wù)規(guī)則明確企業(yè)的數(shù)據(jù)質(zhì)量規(guī)則,即可重復(fù)使用的業(yè)務(wù)邏輯,管理如何清洗數(shù)據(jù)和解析用于支持目標(biāo)應(yīng)用字段和數(shù)據(jù)。業(yè)務(wù)部門(mén)和IT部門(mén)通過(guò)使用基于角色的功能,一同設(shè)計(jì)、測(cè)試、完善和實(shí)施數(shù)據(jù)質(zhì)量業(yè)務(wù)規(guī)則,以達(dá)成最好的結(jié)果。

將數(shù)據(jù)質(zhì)量規(guī)則構(gòu)建到數(shù)據(jù)集成過(guò)程中
數(shù)據(jù)質(zhì)量服務(wù)由可集中管理、獨(dú)立于應(yīng)用程序并可重復(fù)使用的業(yè)務(wù)規(guī)則構(gòu)成,可用來(lái)執(zhí)行探查、清洗、標(biāo)準(zhǔn)化、名稱(chēng)與地址匹配以及監(jiān)測(cè)。在企業(yè)大數(shù)據(jù)治理過(guò)程中,對(duì)于大數(shù)據(jù)生產(chǎn)線(xiàn)中的每個(gè)集成點(diǎn),都需要做數(shù)據(jù)質(zhì)量的檢查,嚴(yán)格控制輸入數(shù)據(jù)的質(zhì)量。比如在數(shù)據(jù)采集過(guò)程,集成過(guò)程,分析過(guò)程等等都需要做檢查。但在大數(shù)據(jù)環(huán)境中,每個(gè)集成點(diǎn)都會(huì)有海量數(shù)據(jù)量流過(guò),把數(shù)據(jù)逐條檢查這種傳統(tǒng)方式是行不通的,應(yīng)該采用抽樣的方式,對(duì)一批數(shù)據(jù)做數(shù)據(jù)質(zhì)量的檢查,來(lái)確定這批數(shù)據(jù)是否滿(mǎn)足一定的質(zhì)量區(qū)間,再?zèng)Q定是否需要對(duì)這批數(shù)據(jù)做詳細(xì)的檢查。

檢查異常并完善規(guī)則
在執(zhí)行數(shù)據(jù)質(zhì)量流程后,大多數(shù)記錄將會(huì)被清洗和標(biāo)準(zhǔn)化,并達(dá)到企業(yè)所設(shè)定的數(shù)據(jù)質(zhì)量目標(biāo)。然而,無(wú)可避免,仍會(huì)存在一些沒(méi)有被清洗的劣質(zhì)數(shù)據(jù),此時(shí)則需要完善控制數(shù)據(jù)質(zhì)量的業(yè)務(wù)規(guī)則。目前企業(yè)內(nèi)的數(shù)據(jù)主要分為外部數(shù)據(jù)和內(nèi)部數(shù)據(jù),大數(shù)據(jù)時(shí)代到來(lái)讓各企業(yè)廣泛采購(gòu)第三方數(shù)據(jù),第三方數(shù)據(jù)的質(zhì)量逐漸成為決定企業(yè)數(shù)據(jù)質(zhì)量的關(guān)鍵因素。對(duì)于企業(yè)的內(nèi)部數(shù)據(jù),可以通過(guò)業(yè)務(wù)梳理直接獲得質(zhì)量檢核規(guī)則。但是對(duì)于外部第三方數(shù)據(jù),需要先對(duì)這些數(shù)據(jù)進(jìn)行采樣,并應(yīng)用關(guān)聯(lián)算法自動(dòng)發(fā)現(xiàn)其中的質(zhì)量檢核規(guī)則,并將這些檢核規(guī)則持續(xù)積累,形成外部數(shù)據(jù)的檢核規(guī)則庫(kù)。

對(duì)照目標(biāo),監(jiān)測(cè)數(shù)據(jù)質(zhì)量,數(shù)據(jù)質(zhì)量控制不應(yīng)為一次性的“邊設(shè)邊忘”活動(dòng)。相對(duì)目標(biāo)和在整個(gè)業(yè)務(wù)應(yīng)用中持續(xù)監(jiān)測(cè)和管理數(shù)據(jù)質(zhì)量對(duì)于保持和改進(jìn)高水平的數(shù)據(jù)質(zhì)量性能而言是至關(guān)重要的??蛇x擇儀表板和報(bào)告進(jìn)行監(jiān)測(cè)。

問(wèn)題數(shù)據(jù)分類(lèi)處理
對(duì)不同數(shù)據(jù)的數(shù)據(jù)問(wèn)題分類(lèi)處理有時(shí)間幫你一起追查歷史數(shù)據(jù)的問(wèn)題”為理由無(wú)情拒絕。這個(gè)時(shí)候即便是找領(lǐng)導(dǎo)協(xié)調(diào),一般也起不到太大的作用。對(duì)于歷史數(shù)據(jù)問(wèn)題的處理,多數(shù)情況是發(fā)揮IT技術(shù)人員的優(yōu)勢(shì),用數(shù)據(jù)清洗的辦法來(lái)解決,清洗的過(guò)程要綜合使用各類(lèi)數(shù)據(jù)源,全面提升歷史數(shù)據(jù)的質(zhì)量。

針對(duì)當(dāng)前數(shù)據(jù)的問(wèn)題
需要通過(guò)從問(wèn)題定義、問(wèn)題發(fā)現(xiàn)、問(wèn)題整改、問(wèn)題跟蹤、效果評(píng)估5個(gè)方面來(lái)解決。本質(zhì)上還是從業(yè)務(wù)規(guī)則出發(fā)去解決問(wèn)題。

對(duì)未來(lái)數(shù)據(jù)的處理
一般要采用做數(shù)據(jù)規(guī)劃的方法來(lái)解決,從整個(gè)企業(yè)信息化的角度出發(fā),規(guī)劃統(tǒng)一企業(yè)數(shù)據(jù)架構(gòu),制定企業(yè)數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)模型。借業(yè)務(wù)系統(tǒng)改造或者重建的時(shí)機(jī),來(lái)從根本上提高數(shù)據(jù)質(zhì)量。當(dāng)然這種機(jī)會(huì)是可遇而不可求的,在機(jī)會(huì)到來(lái)之前應(yīng)該把企業(yè)數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)模型建立起來(lái),一旦機(jī)會(huì)出現(xiàn),就可以遵循這些標(biāo)準(zhǔn)。通過(guò)對(duì)不同時(shí)期數(shù)據(jù)的分類(lèi)處理,做到事前預(yù)防、事中監(jiān)控、事后改善,有助于從根源上解決數(shù)據(jù)質(zhì)量問(wèn)題,為企業(yè)的發(fā)展帶來(lái)突破和創(chuàng)新。



數(shù)據(jù)質(zhì)量問(wèn)題根源
做數(shù)據(jù)質(zhì)量管理首先要搞清楚數(shù)據(jù)質(zhì)量問(wèn)題產(chǎn)生的原因,原因有很多方面,例如:技術(shù)、管理、處理流程、業(yè)務(wù)邏輯錯(cuò)誤等都會(huì)碰到,但從根本上來(lái)講數(shù)據(jù)質(zhì)量問(wèn)題產(chǎn)生的絕大多數(shù)原因在業(yè)務(wù)上。






解決數(shù)據(jù)質(zhì)量問(wèn)題不是簡(jiǎn)單通過(guò)一個(gè)工具就能搞定,需要從根本上認(rèn)識(shí)到數(shù)據(jù)質(zhì)量問(wèn)題產(chǎn)生的真正根源,從而從業(yè)務(wù)上著手解決數(shù)據(jù)質(zhì)量問(wèn)題。從業(yè)務(wù)角度著手解決數(shù)據(jù)質(zhì)量問(wèn)題,重要的是建立一套科學(xué)、可行的數(shù)據(jù)質(zhì)量評(píng)估標(biāo)準(zhǔn)和管理流程。

數(shù)據(jù)質(zhì)量四個(gè)保障原則
評(píng)估數(shù)據(jù)質(zhì)量的好壞,業(yè)界標(biāo)準(zhǔn)并不統(tǒng)一。阿里巴巴對(duì)數(shù)據(jù)倉(cāng)庫(kù)主要從四個(gè)方面進(jìn)行評(píng)估,即完整性、準(zhǔn)確性、一致性和及時(shí)性。

完整性
完整性是指數(shù)據(jù)的記錄和信息是否完整,是否存在缺失的情況。數(shù)據(jù)的缺失主要包括記錄的缺失和記錄中某個(gè)字段信息的缺失,兩者都會(huì)造成數(shù)據(jù)不準(zhǔn)確,所以說(shuō)完整性是數(shù)據(jù)質(zhì)量最基礎(chǔ)的保障。

比如交易中每天支付訂單數(shù)都在100萬(wàn)筆左右,如果某一天支付訂單數(shù)突然下降到1萬(wàn)筆,那么很可能是記錄缺失了。對(duì)于記錄中某個(gè)字段信息的缺失,比如訂單的商品ID、賣(mài)家ID是必須存在的,這些字段的空值個(gè)數(shù)肯定是0,一旦大于0就必然違背了完整性約束。

準(zhǔn)確性
準(zhǔn)確性是指數(shù)據(jù)中記錄的信息和數(shù)據(jù)是否準(zhǔn)確、是否存在異?;蛘咤e(cuò)誤的信息。例如,成績(jī)單中分?jǐn)?shù)出現(xiàn)負(fù)數(shù)或訂單中出現(xiàn)錯(cuò)誤的買(mǎi)家信息或負(fù)的訂單金額等,這些數(shù)據(jù)都是問(wèn)題數(shù)據(jù)。確保記錄的準(zhǔn)確性也是保證數(shù)據(jù)質(zhì)量必不可少的一部分。

一致性
一致性通常體現(xiàn)在跨度很大的數(shù)據(jù)倉(cāng)庫(kù)中。例如,某公司有很多業(yè)務(wù)數(shù)倉(cāng)分支,對(duì)于同一份數(shù)據(jù),在不同的數(shù)倉(cāng)分支中必須保證一致性(數(shù)倉(cāng)各層數(shù)據(jù)經(jīng)過(guò)ETL后,條數(shù)、數(shù)據(jù)值、類(lèi)型需要與上層保持一致)。例如,從在線(xiàn)業(yè)務(wù)庫(kù)加工到數(shù)據(jù)倉(cāng)庫(kù),再到各個(gè)數(shù)據(jù)應(yīng)用節(jié)點(diǎn),用戶(hù)ID必須保持同一種類(lèi)型,且長(zhǎng)度也要保持一致。

及時(shí)性
保障數(shù)據(jù)的及時(shí)產(chǎn)出才能體現(xiàn)數(shù)據(jù)的價(jià)值。例如,決策分析師通常希望當(dāng)天就可以看到前一天的數(shù)據(jù)。若等待時(shí)間過(guò)長(zhǎng),數(shù)據(jù)失去了及時(shí)性的價(jià)值,數(shù)據(jù)分析工作將失去意義。這里離線(xiàn)數(shù)倉(cāng)一般都是凌晨運(yùn)行任務(wù),及時(shí)性可以得到保證。

數(shù)據(jù)質(zhì)量六大基本要素
1 完整性:主要包括實(shí)體不缺失,屬性不缺失,記錄不缺失和字段值不缺失四個(gè)方面

2 唯一性:指主鍵唯一和候選鍵唯一兩個(gè)方面

3 一致性:指統(tǒng)一數(shù)據(jù)來(lái)源、統(tǒng)一數(shù)據(jù)存儲(chǔ)和統(tǒng)一數(shù)據(jù)口徑。

4 精確度: 指計(jì)量誤差、度量單位等方面的精確程度。

5 合規(guī)性:主要包括格式、類(lèi)型、域值和業(yè)務(wù)規(guī)則的有效性。

6 及時(shí)性:指數(shù)據(jù)刷新、修改和提取等操作的及時(shí)性和快速性。

數(shù)據(jù)質(zhì)量管理的方法
1、建立質(zhì)量管控流程和規(guī)范
明確質(zhì)量管控的角色、職責(zé),建立可執(zhí)行的工作流程、可量化的工作評(píng)估等關(guān)于數(shù)據(jù)質(zhì)量管控辦法,同時(shí)也應(yīng)具備績(jī)效考核、沖突解決與管控方式等。

2、執(zhí)行管理工作
1)數(shù)據(jù)剖析
進(jìn)行已知數(shù)據(jù)問(wèn)題的評(píng)估,評(píng)估的范圍控制在本輪管控的目標(biāo)范圍內(nèi)。通過(guò)對(duì)數(shù)據(jù)進(jìn)行剖析,發(fā)現(xiàn)數(shù)據(jù)問(wèn)題,具體規(guī)則又可通過(guò)標(biāo)準(zhǔn)或業(yè)務(wù)調(diào)研進(jìn)行提取。

2)設(shè)計(jì)數(shù)據(jù)質(zhì)量控制操作程序
獲得已知數(shù)據(jù)問(wèn)題后,就應(yīng)設(shè)計(jì)數(shù)據(jù)質(zhì)量控制操作程序。主要包括制定質(zhì)量問(wèn)題評(píng)估方式和整改方式、制定質(zhì)量報(bào)告內(nèi)容及對(duì)象以及制定檢查和監(jiān)控的頻率及方式。

3)定義數(shù)據(jù)質(zhì)量需求
根據(jù)剖析的質(zhì)檢規(guī)則和控制操作程序,對(duì)數(shù)據(jù)質(zhì)量需求進(jìn)行定義。

4)確定數(shù)據(jù)質(zhì)量水平
數(shù)據(jù)質(zhì)量需求定義完畢之后,我們就需要確定在此需求下,目前數(shù)據(jù)質(zhì)量的水平處于什么位置。明確反應(yīng)質(zhì)量水平的并最直觀的就是錯(cuò)誤數(shù)據(jù)的詳情情況。

5)管理數(shù)據(jù)質(zhì)量問(wèn)題
問(wèn)題找到后,針對(duì)根據(jù)不同的質(zhì)量問(wèn)題,進(jìn)行不同的質(zhì)量整改方案。比如:源頭修改、補(bǔ)錄、技術(shù)修復(fù)以及遺留問(wèn)題管控等。

3、檢查數(shù)據(jù)質(zhì)量
首先確定整改質(zhì)量,對(duì)處理后的數(shù)據(jù)進(jìn)行再次質(zhì)檢,出具數(shù)據(jù)質(zhì)量的報(bào)告;然后,對(duì)比處理前后效果,總結(jié)改進(jìn)措施;最后,檢查數(shù)據(jù)質(zhì)量是否合格,分析不合格原因并下一輪管控中進(jìn)行技術(shù)上或者操作程序上的改進(jìn)。

4、監(jiān)控?cái)?shù)據(jù)質(zhì)量,控制管理程序和績(jī)效
根據(jù)既定的操作程序,對(duì)質(zhì)量管控過(guò)程中各個(gè)環(huán)節(jié)參與者進(jìn)行績(jī)效評(píng)估。還可以根據(jù)不同時(shí)期的重點(diǎn)制定不同的評(píng)分標(biāo)準(zhǔn),有針對(duì)性的進(jìn)行評(píng)價(jià)和管控,如整改初期數(shù)據(jù)缺失嚴(yán)重,則可對(duì)完整性規(guī)則權(quán)重調(diào)大,以期更快看到成效或者達(dá)到更好的效果。

數(shù)據(jù)質(zhì)量管控在數(shù)據(jù)治理體系中占據(jù)了十分重要的地位,是看見(jiàn)實(shí)質(zhì)成效最快的一環(huán),也是數(shù)據(jù)治理過(guò)程中的重要一環(huán),億信華辰睿治智能數(shù)據(jù)治理平臺(tái),是一款融合數(shù)據(jù)治理十大產(chǎn)品模塊,覆蓋數(shù)據(jù)全生命周期管理的應(yīng)用平臺(tái),其中也包括了數(shù)據(jù)質(zhì)量模塊,可幫助政企有效提升數(shù)據(jù)質(zhì)量,挖掘數(shù)據(jù)價(jià)值。

數(shù)據(jù)分析的方面
缺失值
異常值
不一致的數(shù)據(jù)
內(nèi)容未知的值
無(wú)效值
數(shù)據(jù)質(zhì)量檢核和監(jiān)控
建立主動(dòng)發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問(wèn)題的方法。制定BDP的度量規(guī)則,基于度量規(guī)則在數(shù)據(jù)BDP內(nèi)數(shù)據(jù)流向的各個(gè)環(huán)節(jié)區(qū)域上橫向檢查,區(qū)域之間的縱向檢查,形成在BDP內(nèi)數(shù)據(jù)的縱橫監(jiān)控網(wǎng),有效發(fā)內(nèi)的數(shù)據(jù)質(zhì)量問(wèn)題。數(shù)據(jù)質(zhì)量檢核內(nèi)容分析圖



基礎(chǔ)數(shù)據(jù)平臺(tái)內(nèi)數(shù)據(jù)質(zhì)量的橫向和縱向檢查 在的數(shù)據(jù)流向各個(gè)環(huán)節(jié)區(qū)域上進(jìn)行橫向檢查,在各環(huán)節(jié)區(qū)域之間進(jìn)行數(shù)據(jù)量的縱向檢查。

橫向檢查
ODS:完整性、有效性、準(zhǔn)確性、唯一性、一致性和合理性,及時(shí)性;

DDS:完整性、有效性、準(zhǔn)確性、唯一性、一致性和合理性,及時(shí)性;

QDS:完整性、有效性、準(zhǔn)確性、唯一性、一致性和合理性,及時(shí)性;

縱向檢查
ODS區(qū)與DDS區(qū)的記錄數(shù)核對(duì) DDS區(qū)與QDS區(qū)的記錄數(shù)核對(duì)

數(shù)據(jù)質(zhì)量的監(jiān)控指標(biāo)一般有哪些
接入數(shù)據(jù)條數(shù)波動(dòng)(近7天均值比較)
源系統(tǒng)表結(jié)構(gòu)變更(表名、字段名、字段類(lèi)型)
源系統(tǒng)表計(jì)算延遲,導(dǎo)致后續(xù)數(shù)據(jù)接入延遲
線(xiàn)上維表新增數(shù)值, 倉(cāng)庫(kù)未及時(shí)更新
對(duì)接入RDBMS表的主鍵、外鍵檢查:是否重復(fù)
重要字段長(zhǎng)度檢查
空值檢查
重要字段枚舉分布檢查:離散的,多數(shù)是維度字段,可以包含空值檢查
值域檢查:連續(xù)的,一般是事實(shí)字段,計(jì)算檢查MAX MIN SUM AVG
日期合法性檢查:是否有跨天日志,是否有不正常時(shí)間日志
數(shù)據(jù)質(zhì)量問(wèn)題分析及報(bào)告
數(shù)據(jù)質(zhì)量分析
對(duì)數(shù)據(jù)質(zhì)量指標(biāo)進(jìn)行應(yīng)用分析,趨勢(shì)分析可對(duì)指標(biāo)在周期內(nèi)的走勢(shì)進(jìn)行分析,質(zhì)量報(bào)告能對(duì)系統(tǒng)內(nèi)的數(shù)據(jù)質(zhì)量情況進(jìn)行分類(lèi)導(dǎo)出。并對(duì)質(zhì)量問(wèn)題進(jìn)行分類(lèi)保存,并能根據(jù)條件靈活查詢(xún)出歷史問(wèn)題,便于以后問(wèn)題的解決,形成數(shù)據(jù)質(zhì)量知識(shí)庫(kù)。

數(shù)據(jù)質(zhì)量分析報(bào)告
根據(jù)數(shù)據(jù)日期、檢核系統(tǒng)生成數(shù)據(jù)質(zhì)量報(bào)告。報(bào)告內(nèi)容包括系統(tǒng)、規(guī)則數(shù)、方法數(shù)、問(wèn)題總數(shù)和檢核出問(wèn)題的檢核方法數(shù)。

報(bào)告分別通過(guò)圖和表來(lái)展現(xiàn)問(wèn)題信息圖:餅狀圖顯示各系統(tǒng)所占問(wèn)題數(shù)比例,餅狀圖顯示各檢核類(lèi)別所占的問(wèn)題數(shù)比例表:數(shù)據(jù)列表,顯示系統(tǒng)的度量規(guī)則數(shù)、方法數(shù)、問(wèn)題總數(shù)和檢核出問(wèn)題的檢核方法數(shù),點(diǎn)擊表中的匯總數(shù)據(jù)可下鉆到詳細(xì)的度量規(guī)則、檢核方法和質(zhì)量問(wèn)題。

檢核方法分析報(bào)告:根據(jù)檢核類(lèi)別和質(zhì)量維度生成度量規(guī)則和檢核方法數(shù)的報(bào)告報(bào)告。

報(bào)告內(nèi)容包括質(zhì)量維度、檢核類(lèi)別、規(guī)則數(shù)和方法數(shù)。

報(bào)告分別通過(guò)柱狀圖和列表的形式展現(xiàn),柱狀圖顯示檢核列別對(duì)應(yīng)的檢核方法數(shù);列表顯示檢核類(lèi)別對(duì)應(yīng)的規(guī)則總數(shù)和方法總數(shù);質(zhì)量維度對(duì)應(yīng)的規(guī)則總數(shù)和方法總數(shù);點(diǎn)擊匯總數(shù)據(jù)可下鉆到詳細(xì)的規(guī)則列表和方法列表。

作者:教你學(xué)懂大數(shù)據(jù)


歡迎關(guān)注微信公眾號(hào) :教你學(xué)懂大數(shù)據(jù)