如何提升數(shù)據(jù)質(zhì)量?(附實戰(zhàn)文檔)

以下文章來源于數(shù)據(jù)治理體系 ,作者1H

一、前言
數(shù)據(jù)質(zhì)量保障的關(guān)鍵的步驟是數(shù)據(jù)質(zhì)量規(guī)則、數(shù)據(jù)質(zhì)量指標(biāo),數(shù)據(jù)探查,數(shù)據(jù)保障機制和數(shù)據(jù)清洗,不管是在做數(shù)據(jù)質(zhì)量或者打算做數(shù)據(jù)質(zhì)量工作的朋友都可以詳細(xì)研究下,應(yīng)該會有幫助。

本篇包含數(shù)質(zhì)量基礎(chǔ),數(shù)據(jù)質(zhì)量規(guī)則、指標(biāo)(附模板下載),數(shù)據(jù)探查(附模板下載),數(shù)據(jù)保障機制,數(shù)據(jù)清洗(附模板下載),常見質(zhì)量問題(附下載文檔)



二、數(shù)據(jù)質(zhì)量基礎(chǔ)
數(shù)據(jù)質(zhì)量管理(Data Quality Management),是指對數(shù)據(jù)從計劃、獲取、存儲、共享、維護、應(yīng)用、消亡生命周期的每個階段里可能引發(fā)的各類數(shù)據(jù)質(zhì)量問題,進(jìn)行識別、度量、監(jiān)控、預(yù)警等一系列管理活動,并通過改善和提高組織的管理水平使得數(shù)據(jù)質(zhì)量獲得進(jìn)一步提高。

數(shù)據(jù)質(zhì)量最關(guān)鍵的6個維度:

1)完整性:指數(shù)據(jù)在錄入、傳遞過程中無缺失和遺漏,包括實體完整、屬性完整、記錄完整和字段值完整四個方面。

2)及時性:指及時記錄和傳遞相關(guān)數(shù)據(jù),滿足業(yè)務(wù)對信息獲取的時間要求。

3)有效性:指數(shù)據(jù)的值、格式和展現(xiàn)形式符合數(shù)據(jù)定義和業(yè)務(wù)定義的要求。

4)一致性:指遵循統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)記錄和傳遞數(shù)據(jù)和信息,主要體現(xiàn)在數(shù)據(jù)

記錄是否規(guī)范、數(shù)據(jù)是否符合邏輯。

5)唯一性:指同一數(shù)據(jù)只能有唯一的標(biāo)識符。

6)準(zhǔn)確性:指真實地、準(zhǔn)確地記錄原始數(shù)據(jù),無虛假數(shù)據(jù)及信息。

三、數(shù)據(jù)質(zhì)量規(guī)則,數(shù)據(jù)質(zhì)量指標(biāo)
數(shù)據(jù)質(zhì)量規(guī)則是數(shù)據(jù)質(zhì)量最核心的內(nèi)容,數(shù)據(jù)質(zhì)量規(guī)則和指標(biāo)設(shè)計的全與不全,是否合理,決定了數(shù)據(jù)的質(zhì)量的好壞。下面是我根據(jù)華為數(shù)據(jù)之道和工業(yè)企業(yè)數(shù)字化轉(zhuǎn)型之道加上我的經(jīng)驗綜合出來的一個版本,如果這些規(guī)則都用到位,數(shù)據(jù)質(zhì)量應(yīng)該是有保障的,由于列比較多,完整版請在公眾號獲取。

對象    質(zhì)量特性    規(guī)則類型    指標(biāo)
單列    完整性    不可為空類    空值率
有效性     語法約束類    1-樣本記錄異常值比率
有效性     格式規(guī)范類   
有效性     長度約束類   
有效性     值域約束類   
準(zhǔn)確性    事實參照標(biāo)準(zhǔn)類    樣本記錄中真實記錄的比率
跨列    完整性    應(yīng)為空值類   
及時性    入庫及時類    滿足時間要求的樣本記錄的比率
一致性    單表等值一致約束類   
一致性    單表邏輯一致約束類   
跨行    唯一性     記錄唯一類   
一致性    層級結(jié)構(gòu)一致約束   
跨表    一致性    外關(guān)聯(lián)約束類    外鍵無對應(yīng)主鍵的樣本記錄比率
一致性    跨表等值一致約束類   
一致性    跨表邏輯一致約束類   
跨系統(tǒng)    一致性    跨系統(tǒng)記錄一致約束類    樣本記錄與其它系統(tǒng)的匹配率
及時性    入庫及時類    滿足時間要求的樣本記錄的比率

四、數(shù)據(jù)探查

數(shù)據(jù)探查是數(shù)據(jù)質(zhì)量保障非常重要要的一步,他是設(shè)計的基礎(chǔ),排除客觀原因,好的效率和質(zhì)量是可以通過設(shè)計來提升的,如果沒有數(shù)據(jù)探查,一般情況下數(shù)據(jù)類項目都會反復(fù)多次,有可能影響人員變動,交接困難,維護困難,項目完成周期長等問題。

下面只是其中幾個方面的數(shù)據(jù)探查,供參考,具體案例,請在公眾號獲取。

探查出的常見問題和分類請在公眾號獲取。

探查項

分析意義

分析點

分析點解釋

完整性分析

保證分析的可靠性

空值記錄數(shù)

探查字段在探查時間點沒有值的記錄條數(shù)

總記錄數(shù)

探查字段在探查時間點總記錄數(shù)

缺失率

探查字段在探查時間點缺失信息記錄數(shù)占總記錄數(shù)的比重

空值預(yù)警

探查字段在探查時間點缺失率高于10%則提出預(yù)警






主鍵唯一性

探查主鍵字段在探查時間點是否有重復(fù)記錄

值域分析

分析是否有異常數(shù)據(jù)

最大值

數(shù)值型,日期型字段在探查時間點的最大值

最小值

數(shù)值型,日期型字段在探查時間點的最小值

枚舉值分析

列出檢測字段所有的枚舉值

枚舉范圍

屬性字段的枚舉值定義

枚舉實際范圍值

屬性字段在探查時間點實際的枚舉值及其分布

異常比例

探查時間點,不在枚舉定義范圍的枚舉值占總記錄數(shù)的比重

邏輯性探查

業(yè)務(wù)邏輯點

根據(jù)業(yè)務(wù)邏輯探查字段是否遵循業(yè)務(wù)邏輯

五、數(shù)據(jù)質(zhì)量保障機制
數(shù)據(jù)質(zhì)量持續(xù)提升就要靠保障機制了,只有自動化,常態(tài)化,持續(xù)監(jiān)控數(shù)據(jù)質(zhì)量,才能不斷提升數(shù)據(jù)的質(zhì)量,數(shù)據(jù)質(zhì)量保障主要有如下幾個關(guān)鍵步驟:

設(shè)計量化指標(biāo)—>設(shè)計質(zhì)量打分細(xì)則->設(shè)計分值考核->異常數(shù)據(jù)監(jiān)控->指標(biāo)展現(xiàn)->按規(guī)則推送提醒相關(guān)負(fù)責(zé)人



例:空值率>5%,記1分,每日空值率指標(biāo)預(yù)警,每日全部門通報,影響年底考核。

此部分需要根據(jù)公司實際情況詳細(xì)設(shè)計。

六、數(shù)據(jù)清洗
數(shù)據(jù)清洗(Data cleaning)– 對數(shù)據(jù)進(jìn)行重新審查和校驗的過程,目的在于刪除重復(fù)信息、糾正存在的錯誤,并提供數(shù)據(jù)一致性。主要有不完整的數(shù)據(jù)、錯誤的數(shù)據(jù)、重復(fù)的數(shù)據(jù)三大類;

如果前端控制不到位,又想有高質(zhì)量的數(shù)據(jù),只能靠數(shù)據(jù)清洗,數(shù)據(jù)清洗是存量數(shù)據(jù)質(zhì)量提升的關(guān)鍵步驟,數(shù)據(jù)清洗后的數(shù)據(jù)可以更好的支持?jǐn)?shù)據(jù)分析,數(shù)據(jù)洞見。

 參考模板在公眾號獲取。

七、結(jié)語

上面是我對數(shù)據(jù)質(zhì)量的一些理解和實戰(zhàn)經(jīng)驗,如果對您有幫助,煩請關(guān)注、轉(zhuǎn)發(fā),如有任何問題,請留言或加我微信入群,我們一起探討,一起持續(xù)構(gòu)建數(shù)據(jù)治理體系。

作者:1H


歡迎關(guān)注微信公眾號 :教你學(xué)懂大數(shù)據(jù)