全面解析數(shù)據(jù)質(zhì)量管理【建議收藏】

前言

大家好,我是唐三少。大數(shù)據(jù)蘊(yùn)藏著大價(jià)值,但想要將大數(shù)據(jù)的價(jià)值充分發(fā)揮出來,首先必須要確保收集來的數(shù)據(jù)質(zhì)量可靠,否則即使擁有最好的硬件、應(yīng)用系統(tǒng)和數(shù)據(jù)分析平臺(tái),也難以保障業(yè)務(wù)的最終成果。數(shù)據(jù)質(zhì)量差的大數(shù)據(jù)帶來的很可能不是洞見,而是誤導(dǎo),甚至是慘痛的損失。

1. 什么是數(shù)據(jù)質(zhì)量

247210bk-1.png

在DIKW金字塔模型中,數(shù)據(jù)出于底層,在數(shù)據(jù)之上,是經(jīng)過數(shù)據(jù)加工之后的形成的信息,即上下文的數(shù)據(jù)。在往上,我們將知識(shí)視為可操作的信息,并將頂級(jí)智慧視為可應(yīng)用的知識(shí)。如果數(shù)據(jù)質(zhì)量差,則信息質(zhì)量將不佳。信息質(zhì)量差,業(yè)務(wù)操作方面將缺乏可應(yīng)用的知識(shí),而使用錯(cuò)誤的知識(shí)將對(duì)業(yè)務(wù)結(jié)果帶來高風(fēng)險(xiǎn)。
所以,所有數(shù)據(jù)都有一定程度的質(zhì)量,該程度在一定意義上是可評(píng)估,可測(cè)量的。高質(zhì)量數(shù)據(jù)的定義是什么:
■ 數(shù)據(jù)適合預(yù)期的使用目的
■ 數(shù)據(jù)正確的表達(dá)了所描述事物和現(xiàn)象的真實(shí)構(gòu)造
■ 數(shù)據(jù)符合某個(gè)標(biāo)準(zhǔn)或 達(dá)到人們期望的水平
無論從哪個(gè)定義來看,數(shù)據(jù)質(zhì)量都是指數(shù)據(jù)滿足人們的隱性或顯性期望的程度。人們判斷數(shù)據(jù)質(zhì)量的高低取決于人們的期望,當(dāng)然高質(zhì)量的數(shù)據(jù)更符合期望。
人們的期望很復(fù)雜,不僅在于數(shù)據(jù)應(yīng)該表示什么,還在于使用數(shù)據(jù)的目的和如何使用它們。所以數(shù)據(jù)質(zhì)量是相對(duì)的,主觀的,還可能是矛盾的。比如同一條客戶信息,對(duì)于銷售部門來說是高質(zhì)量的,因?yàn)樗恍枰蕾u給了誰;對(duì)于物流部門來說,除了用戶基本信息,還需要知道收貨信息(收貨人地址,姓名,電話等);對(duì)于財(cái)務(wù)部門來說,除了上面的信息,還需要關(guān)注客戶的開票信息。如果這一條客戶信息不完整,就無法進(jìn)行客戶服務(wù),因?yàn)樵摂?shù)據(jù)沒有完整且正確地描述在業(yè)務(wù)運(yùn)營中所需的真實(shí)身份和地點(diǎn),這會(huì)對(duì)企業(yè)業(yè)務(wù)帶來影響。

2. 數(shù)據(jù)質(zhì)量差的后果
2.1 經(jīng)濟(jì)損失
質(zhì)量差最直接的影響就是遭受經(jīng)濟(jì)損失。如果不了解客戶的最新產(chǎn)品和動(dòng)態(tài),就會(huì)失去客戶和潛在客戶,以及他們可能帶來的收入。如果系統(tǒng)中的客戶聯(lián)系信息不正確(比如電話、電子郵箱等),客戶的家庭關(guān)系錯(cuò)誤,就無法對(duì)客戶進(jìn)行精準(zhǔn)分析,甚至連營銷信息都無法送達(dá)客戶,更不用說銷售產(chǎn)品了。數(shù)據(jù)錯(cuò)誤可能會(huì)給企業(yè)帶來巨大的經(jīng)濟(jì)損失甚至名譽(yù)損失。

2.2 增加成本
如果企業(yè)中存在大量不完整,不正確的數(shù)據(jù),將會(huì)給業(yè)務(wù)帶來額外的溝通成本。如果企業(yè)使用這些質(zhì)量差的數(shù)據(jù)進(jìn)行數(shù)據(jù)分析或預(yù)測(cè)分析,不僅浪費(fèi)時(shí)間,而且有可能被誤導(dǎo)。同樣,如果數(shù)據(jù)中存在重復(fù)項(xiàng)和缺少字段的情況,企業(yè)數(shù)據(jù)管理效率也會(huì)降低。
“垃圾進(jìn),垃圾出”,基于低質(zhì)量數(shù)據(jù)做出的分析結(jié)果一定是不可信的,不具備任何輔助決策意義,只能造成成本的浪費(fèi)。

2.3 名譽(yù)受損
有一個(gè)故事,美國一超市給還在上高中的女兒寄送嬰兒服和嬰兒床的優(yōu)惠券,而被這位父親所投訴,后來這位父親發(fā)現(xiàn)女兒真的懷孕了,又向超市道歉。假如超市的數(shù)據(jù)質(zhì)量有問題,還能準(zhǔn)確預(yù)測(cè)上高中的女兒已經(jīng)懷孕了嗎?如果預(yù)測(cè)失敗會(huì)發(fā)生什么?如果嬰兒用品的優(yōu)惠券寄錯(cuò)地址又會(huì)發(fā)生什么?顯而易見,數(shù)據(jù)質(zhì)量差將可能是企業(yè)名譽(yù)受損,從而在競(jìng)爭(zhēng)中處于不利地位。

2.4 無形成本
數(shù)據(jù)質(zhì)量差帶來的溝通成本,運(yùn)營成本以及經(jīng)濟(jì)損失屬于有形成本,可衡量的。而基于不準(zhǔn)確的數(shù)據(jù)所做出的錯(cuò)誤決策造成的成本是無形,這種無形成本還可能導(dǎo)致更大更嚴(yán)重的影響。
要讓領(lǐng)導(dǎo)相信數(shù)據(jù),首先要提供高質(zhì)量的數(shù)據(jù)!

2.5 運(yùn)營風(fēng)險(xiǎn)
低質(zhì)量的數(shù)據(jù)不僅會(huì)給企業(yè)帶來經(jīng)濟(jì)上的損失,增加企業(yè)的運(yùn)營成本,給企業(yè)的聲譽(yù)帶來影響,還可能存在潛在的運(yùn)營風(fēng)向。
運(yùn)營風(fēng)險(xiǎn)是與企業(yè)核心業(yè)務(wù)職能執(zhí)行相關(guān)的風(fēng)險(xiǎn),很大程度上與人員,流程和日常業(yè)務(wù)活動(dòng)所使用的系統(tǒng)有關(guān),主要包括內(nèi)部流程,外部監(jiān)管,法定業(yè)務(wù),人力資源等方面的風(fēng)險(xiǎn)。例如:數(shù)據(jù)質(zhì)量差,不滿足監(jiān)管部門的要求,面臨審計(jì)不通過的風(fēng)險(xiǎn);數(shù)據(jù)質(zhì)量差,會(huì)給數(shù)據(jù)所產(chǎn)生的衍生品帶來負(fù)面影響,引起用戶的不滿和質(zhì)疑,甚至引發(fā)糾紛等。

3.什么是數(shù)據(jù)質(zhì)量維度
數(shù)據(jù)質(zhì)量類似于人類健康。影響健康的因素有很多,比如飲食、運(yùn)動(dòng)、情緒等,準(zhǔn)確測(cè)量這些健康的影響因素非常困難。同樣,準(zhǔn)確測(cè)量數(shù)據(jù)質(zhì)量中影響業(yè)務(wù)的數(shù)據(jù)元素也非常困難。數(shù)據(jù)質(zhì)量差對(duì)業(yè)務(wù)而言是不“健康”的,數(shù)據(jù)質(zhì)量維度將幫助我們認(rèn)識(shí)數(shù)據(jù)質(zhì)量對(duì)業(yè)務(wù)的重要性。數(shù)據(jù)質(zhì)量維度就是用來測(cè)量或評(píng)估數(shù)據(jù)質(zhì)量的各方面,通過測(cè)量維度來對(duì)數(shù)據(jù)質(zhì)量進(jìn)行量化,通過改進(jìn)數(shù)據(jù)質(zhì)量維度來提高數(shù)據(jù)質(zhì)量。針對(duì)不同的數(shù)據(jù)集,數(shù)據(jù)質(zhì)量維度可能不同,一般包含數(shù)據(jù)的一致性,完整性,唯一性,準(zhǔn)確性,真實(shí)性,及時(shí)性和關(guān)聯(lián)性。

247210bk-2.png

3.1 一致性
數(shù)據(jù)一致性主要體現(xiàn)在多個(gè)數(shù)據(jù)源之間:
第一,多個(gè)數(shù)據(jù)源之間的元數(shù)據(jù)的一致性;主要包括命名一致性、數(shù)據(jù)結(jié)構(gòu)一致性、約束規(guī)則一致性等
第二,多個(gè)數(shù)據(jù)源之間數(shù)據(jù)記錄的一致性。主要包括數(shù)據(jù)編碼的一致性、命名及含義的一致性、數(shù)據(jù)分類層次的一致性、數(shù)據(jù)生命周期的一致性等
在相同的數(shù)據(jù)有多個(gè)副本的情況下,也會(huì)產(chǎn)生數(shù)據(jù)不一致、數(shù)據(jù)內(nèi)容沖突等問題。

3.2 完整性
數(shù)據(jù)完整性主要體現(xiàn)三個(gè)方面:
第一,數(shù)據(jù)模型的完整性,例如唯一性約束的完整性、參照數(shù)據(jù)的完整性;
第二,數(shù)據(jù)記錄的完整性,例如數(shù)據(jù)記錄是否丟失或數(shù)據(jù)是否不可用;
第三,數(shù)據(jù)屬性的完整性,例如數(shù)據(jù)屬性是否存在空值等。
不完整的數(shù)據(jù)的價(jià)值會(huì)大大降低,數(shù)據(jù)完整性是數(shù)據(jù)質(zhì)量問題中最為基礎(chǔ)和常見的一類問題。

3.3 唯一性
數(shù)據(jù)唯一性用于識(shí)別和度量冗余數(shù)據(jù)。冗余數(shù)據(jù)是導(dǎo)致業(yè)務(wù)無法協(xié)同,流程無法追溯的重要因素。例如,主數(shù)據(jù)治理中的“一物多碼,多物一碼”問題。為每個(gè)數(shù)據(jù)實(shí)體賦予唯一的“身份ID”是數(shù)據(jù)治理需要解決的基本問題。

3.4 準(zhǔn)確性
數(shù)據(jù)準(zhǔn)確性也叫可靠性,用于分析,識(shí)別和度量不準(zhǔn)確或無效的數(shù)據(jù)。數(shù)據(jù)準(zhǔn)確性體現(xiàn)為數(shù)據(jù)描述是否準(zhǔn)確,數(shù)據(jù)計(jì)算是否準(zhǔn)確,數(shù)據(jù)的值是否準(zhǔn)確等。不可靠的數(shù)據(jù)可能會(huì)導(dǎo)致嚴(yán)重的問題,會(huì)造成有缺陷的方法和糟糕的決策。

3.5 真實(shí)性
數(shù)據(jù)真實(shí)性用于度量數(shù)據(jù)是否真實(shí)、是否正確地表達(dá)了所描述事物和現(xiàn)象的真實(shí)構(gòu)造。真實(shí)可靠的原始數(shù)據(jù)是數(shù)據(jù)分析的靈魂。但事實(shí)上,數(shù)據(jù)的真實(shí)性往往難以保證,有時(shí)候數(shù)據(jù)不真實(shí)并不是因?yàn)樵嫉臄?shù)據(jù)記錄有問題,而是人為因素所致,尤其是一些需要層層上報(bào)的數(shù)據(jù),數(shù)據(jù)失真很常見。

3.6 及時(shí)性
數(shù)據(jù)的及時(shí)性是指能否在需要的時(shí)候獲得數(shù)據(jù)。統(tǒng)計(jì)學(xué)認(rèn)為,獲得數(shù)據(jù)的時(shí)間不應(yīng)當(dāng)超過該數(shù)據(jù)對(duì)未來經(jīng)濟(jì)或業(yè)務(wù)產(chǎn)生影響的平均時(shí)間。數(shù)據(jù)也是有時(shí)效性的,過期數(shù)據(jù)的價(jià)值大打折扣。

3.7 關(guān)聯(lián)性
數(shù)據(jù)關(guān)聯(lián)性用于度量存在關(guān)系的數(shù)據(jù),即關(guān)聯(lián)關(guān)系是否缺失或錯(cuò)誤。數(shù)據(jù)關(guān)聯(lián)關(guān)系包括函數(shù)關(guān)系,相關(guān)系數(shù),主外鍵關(guān)系,索引關(guān)系等。    數(shù)據(jù)之間存在關(guān)聯(lián)性問題會(huì)影響分析的結(jié)果。

4.什么是數(shù)據(jù)質(zhì)量測(cè)量
數(shù)據(jù)質(zhì)量測(cè)量是指為了達(dá)到某一預(yù)期,按照一定的標(biāo)準(zhǔn)從數(shù)據(jù)質(zhì)量維度進(jìn)行衡量,以確定數(shù)據(jù)達(dá)到預(yù)期的程度。通過測(cè)量,我們可以在不同對(duì)象之間跨越不同時(shí)間,不同空間進(jìn)行比較,從而做出決策。
要保證達(dá)成數(shù)據(jù)預(yù)期,首先要保證數(shù)據(jù)質(zhì)量測(cè)量是有效的。有效的測(cè)量的幾個(gè)特點(diǎn)。

4.1 數(shù)據(jù)測(cè)量必須要有目的
古人用“風(fēng)馬牛不相及”來形容互不相干的事物,我們也經(jīng)常說“不能拿蘋果和香蕉比較”,意思是蘋果和香蕉差異大,拿它們進(jìn)行比較沒有意義。這意味著要有兩個(gè)“相同”的對(duì)象,才能形成有意義的測(cè)量。
當(dāng)然,蘋果和香蕉之間也有共同之處,比如它們都是水果,都有果皮,果肉中都含有維生素和糖分。它們也有不同之處:香蕉是長(zhǎng)的,蘋果是圓的;香蕉是黃色的,蘋果有紅色的、綠色的、黃色的;它們的口感也不一樣。
那么,我們?yōu)槭裁匆容^它們呢?這是問題的關(guān)鍵,我們需要一個(gè)“原因”來測(cè)量我們要測(cè)量的東西。

4.2 數(shù)據(jù)質(zhì)量測(cè)量必須可重復(fù)
測(cè)量涉及一個(gè)對(duì)比前后的變化程度,只與抽象的結(jié)果比較是遠(yuǎn)遠(yuǎn)不夠的。就像我們測(cè)量孩子的身高,孩子身高是會(huì)隨著時(shí)間的推移發(fā)生變化的,重復(fù)的測(cè)量能夠讓我們獲得這種變化的規(guī)律和程度。這就是為什么測(cè)量必須是可重復(fù)的,而不能是單次的。重復(fù)的測(cè)量意味著對(duì)事物真實(shí)性的持續(xù)探索。

4.3 數(shù)據(jù)質(zhì)量測(cè)量必須可解釋
數(shù)據(jù)質(zhì)量測(cè)量的可解釋性是保證數(shù)據(jù)測(cè)量有效的前提。如果人們無法理解被測(cè)量的是什么,那么這個(gè)測(cè)量結(jié)果就是無用的,不能幫助人們減少不確定性。
例如:企業(yè)通過統(tǒng)計(jì)職工的平均年齡來分析員工的年齡結(jié)構(gòu)。一般認(rèn)為:企業(yè)員工平均年齡在30歲以下,說明這個(gè)企業(yè)比較有活力;平均年齡在30~40歲之間,說明企業(yè)是以中青年勞動(dòng)力為主力軍,員工年齡結(jié)構(gòu)處于合理區(qū)間;平均年齡超過45歲,說明企業(yè)的老齡化程度較高。如果企業(yè)員工的平均年齡超過了60歲,這就很難理解了,是統(tǒng)計(jì)數(shù)據(jù)出了問題,還是企業(yè)就只有幾名老員工?
用不能被理解的方式進(jìn)行測(cè)量,或者測(cè)量的結(jié)果不能被理解,都是無意義的。數(shù)據(jù)測(cè)量既是一個(gè)交流的工具,也是一個(gè)分析的工具。

5. 什么是數(shù)據(jù)質(zhì)量管理
上面我們已經(jīng)知道什么是數(shù)據(jù)質(zhì)量,數(shù)據(jù)質(zhì)量的維度 和 數(shù)據(jù)質(zhì)量測(cè)量,那什么是數(shù)據(jù)質(zhì)量管理呢?
數(shù)據(jù)質(zhì)量管理就是 指對(duì)數(shù)據(jù)從計(jì)劃,獲取,存儲(chǔ),共享,維護(hù),應(yīng)用到消亡,這整個(gè)生命周期的每一個(gè)階段可能引發(fā)的數(shù)據(jù)質(zhì)量問題,進(jìn)行識(shí)別,測(cè)量,監(jiān)控,預(yù)警等一系列管理活動(dòng),并通過改善和提高組織的管理水平,使數(shù)據(jù)質(zhì)量獲得進(jìn)一步的提高。數(shù)據(jù)質(zhì)量管理的終極目標(biāo):通過可靠的數(shù)據(jù)提升數(shù)據(jù)在使用中的價(jià)值,并最終為企業(yè)贏得經(jīng)濟(jì)效益。
我們可以簡(jiǎn)單地將數(shù)據(jù)質(zhì)量管理理解為一種業(yè)務(wù)原則,需要將合適的人員、流程和技術(shù)進(jìn)行有機(jī)整合,改進(jìn)數(shù)據(jù)質(zhì)量各維度的數(shù)據(jù)問題,提高數(shù)據(jù)質(zhì)量。實(shí)際上,企業(yè)數(shù)據(jù)治理的各個(gè)關(guān)鍵領(lǐng)域和關(guān)鍵活動(dòng)都是圍繞如何提升數(shù)據(jù)質(zhì)量,以獲得更大的業(yè)務(wù)成果或經(jīng)濟(jì)利益而展開的。
數(shù)據(jù)質(zhì)量管理是數(shù)據(jù)治理的重要組成部分,通常用在數(shù)據(jù)模型設(shè)計(jì)、數(shù)據(jù)資產(chǎn)管理、主數(shù)據(jù)管理、數(shù)據(jù)倉庫等解決方案中。 數(shù)據(jù)質(zhì)量管理可以是反應(yīng)性的被動(dòng)管理,也可以是預(yù)防性的主動(dòng)管理。很多公司將數(shù)據(jù)質(zhì)量管理的技術(shù)與企業(yè)管理的流程相結(jié)合,用來提升主動(dòng)管理數(shù)據(jù)質(zhì)量的能力,這是一個(gè)很好的實(shí)踐。

6. 數(shù)據(jù)質(zhì)量管理策略和技術(shù)
數(shù)據(jù)質(zhì)量管理包含正確定義數(shù)據(jù)標(biāo)準(zhǔn),并采用正確的技術(shù)、投入合理的資源來管理數(shù)據(jù)質(zhì)量。數(shù)據(jù)質(zhì)量管理策略和技術(shù)的應(yīng)用是一個(gè)比較廣泛的范疇,它可以作用于數(shù)據(jù)質(zhì)量管理的事前、事中、事后三個(gè)階段。數(shù)據(jù)質(zhì)量管理應(yīng)秉持預(yù)防為主的理念,堅(jiān)持將“以預(yù)控為核心,以滿足業(yè)務(wù)需求為目標(biāo)”作為工作的根本出發(fā)點(diǎn)和落腳點(diǎn),加強(qiáng)數(shù)據(jù)質(zhì)量管理的事前預(yù)防、事中控制、事后補(bǔ)救的各種措施,以實(shí)現(xiàn)企業(yè)數(shù)據(jù)質(zhì)量的持續(xù)提升

247210bk-3.png

6.1 事前預(yù)防
事前預(yù)防即防患于未然,是數(shù)據(jù)質(zhì)量管理的上上之策。數(shù)據(jù)質(zhì)量管理的事前預(yù)防可以從組織人員、標(biāo)準(zhǔn)規(guī)范、制度流程三個(gè)方面入手。

6.1.1 加強(qiáng)組織建設(shè)
企業(yè)需要建立一種文化,以讓更多的人認(rèn)識(shí)到數(shù)據(jù)質(zhì)量的重要性,這離不開組織機(jī)制的保障。建立數(shù)據(jù)質(zhì)量管理的組織體系,明確角色職責(zé)并為每個(gè)角色配置適當(dāng)技能的人員,以及加強(qiáng)對(duì)相關(guān)人員的培訓(xùn)和培養(yǎng),這是保證數(shù)據(jù)質(zhì)量的有效方式。
(1)組織角色設(shè)置
企業(yè)在實(shí)施數(shù)據(jù)質(zhì)量管理時(shí),應(yīng)考慮在數(shù)據(jù)治理整體的組織框架下設(shè)置相關(guān)的數(shù)據(jù)質(zhì)量管理角色,并確定他們?cè)跀?shù)據(jù)質(zhì)量管理中的職責(zé)分工。常見的組織角色及其職責(zé)如下。
數(shù)據(jù)治理委員會(huì):為數(shù)據(jù)質(zhì)量定下基調(diào),制定有關(guān)數(shù)據(jù)基礎(chǔ)架構(gòu)和流程的決策。數(shù)據(jù)治理委員會(huì)確保在整個(gè)企業(yè)范圍內(nèi)采用與數(shù)據(jù)質(zhì)量相關(guān)的類似方法和政策,并在組織的所有職能部門之間進(jìn)行橫向調(diào)整。數(shù)據(jù)治理委員會(huì)定期開會(huì)以新的數(shù)據(jù)質(zhì)量目標(biāo),推動(dòng)測(cè)量并分析各個(gè)業(yè)務(wù)部門內(nèi)數(shù)據(jù)質(zhì)量的狀態(tài)。
數(shù)據(jù)分析師:負(fù)責(zé)數(shù)據(jù)問題的根因分析,以便為數(shù)據(jù)質(zhì)量解決方案的制定提供決策依據(jù)。
數(shù)據(jù)管理員:負(fù)責(zé)將數(shù)據(jù)作為公司資產(chǎn)進(jìn)行管理,保障數(shù)據(jù)質(zhì)量,例如定期數(shù)據(jù)清理、刪除重復(fù)數(shù)據(jù)或解決其他數(shù)據(jù)問題。
(2)加強(qiáng)人員培訓(xùn)
數(shù)據(jù)不準(zhǔn)確的主要原因是人為因素,加強(qiáng)對(duì)相關(guān)人員的培訓(xùn),提升人員的數(shù)據(jù)質(zhì)量意識(shí),能夠有效減少數(shù)據(jù)質(zhì)量問題的發(fā)生。
數(shù)據(jù)質(zhì)量管理培訓(xùn)是一個(gè)雙贏的過程。對(duì)于員工來說,通過培訓(xùn),自己不僅能夠認(rèn)識(shí)到數(shù)據(jù)質(zhì)量對(duì)業(yè)務(wù)和管理的重要性,還能學(xué)習(xí)到數(shù)據(jù)管理理論、技術(shù)、工具等知識(shí)和技能,確保上游業(yè)務(wù)人員知道他們的數(shù)據(jù)對(duì)下游業(yè)務(wù)和應(yīng)用程序的影響,讓自己在工作中盡可能不犯錯(cuò)、少犯錯(cuò),提高自己的業(yè)務(wù)處理效率和質(zhì)量。對(duì)于企業(yè)來說,通過培訓(xùn),可以使數(shù)據(jù)標(biāo)準(zhǔn)得到宣貫,提升員工的數(shù)據(jù)思維和對(duì)數(shù)據(jù)的認(rèn)識(shí)水平,建立起企業(yè)的數(shù)據(jù)文化,以支撐企業(yè)數(shù)據(jù)治理的長(zhǎng)治久安。
此外,企業(yè)應(yīng)鼓勵(lì)員工參加專業(yè)資格認(rèn)證的培訓(xùn),這樣能夠讓相關(guān)人員更加系統(tǒng)地學(xué)習(xí)數(shù)據(jù)治理知識(shí)體系,提升數(shù)據(jù)管理的專業(yè)能力。

6.1.2 落實(shí)數(shù)據(jù)標(biāo)準(zhǔn)
數(shù)據(jù)標(biāo)準(zhǔn)的有效執(zhí)行和落地是數(shù)據(jù)質(zhì)量管理的必要條件。數(shù)據(jù)標(biāo)準(zhǔn)包括數(shù)據(jù)模型標(biāo)準(zhǔn)、主數(shù)據(jù)和參考數(shù)據(jù)標(biāo)準(zhǔn)、指標(biāo)數(shù)據(jù)標(biāo)準(zhǔn)等。
(1)數(shù)據(jù)模型標(biāo)準(zhǔn)
數(shù)據(jù)模型標(biāo)準(zhǔn)數(shù)對(duì)數(shù)據(jù)模型中的業(yè)務(wù)定義、業(yè)務(wù)規(guī)則、數(shù)據(jù)關(guān)系、數(shù)據(jù)質(zhì)量規(guī)則等進(jìn)行統(tǒng)一定義,以及通過元數(shù)據(jù)管理工具對(duì)這些標(biāo)準(zhǔn)和規(guī)則進(jìn)行統(tǒng)一管理。在數(shù)據(jù)質(zhì)量管理過程中,可以將這些標(biāo)準(zhǔn)映射到業(yè)務(wù)流程中,并將數(shù)據(jù)標(biāo)準(zhǔn)作為數(shù)據(jù)質(zhì)量評(píng)估的依據(jù),實(shí)現(xiàn)數(shù)據(jù)質(zhì)量的稽查核驗(yàn),使得數(shù)據(jù)的質(zhì)量校驗(yàn)有據(jù)可依,有法可循。
(2)主數(shù)據(jù)和參考數(shù)據(jù)標(biāo)準(zhǔn)
主數(shù)據(jù)和參考數(shù)據(jù)標(biāo)準(zhǔn)包含主數(shù)據(jù)和參考數(shù)據(jù)的分類標(biāo)準(zhǔn)、編碼標(biāo)準(zhǔn)、模型標(biāo)準(zhǔn),它們是主數(shù)據(jù)和參考數(shù)據(jù)在各部門、各業(yè)務(wù)系統(tǒng)之間進(jìn)行共享的保障。如果主數(shù)據(jù)和參考數(shù)據(jù)標(biāo)準(zhǔn)無法有效執(zhí)行,就會(huì)嚴(yán)重影響主數(shù)據(jù)的質(zhì)量,帶來主數(shù)據(jù)的不一致、不完整、不唯一等問題,進(jìn)而影響業(yè)務(wù)協(xié)同和決策支持。
(3)指標(biāo)數(shù)據(jù)標(biāo)準(zhǔn)
指標(biāo)數(shù)據(jù)是在業(yè)務(wù)數(shù)據(jù)基礎(chǔ)上按照一定業(yè)務(wù)規(guī)則加工匯總的數(shù)據(jù),指標(biāo)數(shù)據(jù)標(biāo)準(zhǔn)主要涵蓋業(yè)務(wù)屬性、技術(shù)屬性、管理屬性三個(gè)方面。
指標(biāo)數(shù)據(jù)標(biāo)準(zhǔn)統(tǒng)一了分析指標(biāo)的統(tǒng)計(jì)口徑、統(tǒng)計(jì)維度、計(jì)算方法的基礎(chǔ),不僅是各業(yè)務(wù)部門共識(shí)的基礎(chǔ),也是數(shù)據(jù)倉庫、BI項(xiàng)目的主要建設(shè)內(nèi)容,為數(shù)據(jù)倉庫的數(shù)據(jù)質(zhì)量稽查提供依據(jù)。






6.1.3 制度流程保障
(1)數(shù)據(jù)質(zhì)量管理流程
數(shù)據(jù)質(zhì)量管理是一個(gè)閉環(huán)管理流程,包括業(yè)務(wù)需求定義、數(shù)據(jù)質(zhì)量測(cè)量、根本原因分析、實(shí)施改進(jìn)方案、控制數(shù)據(jù)質(zhì)量。
247210bk-4.png

① 業(yè)務(wù)需求定義
筆者的一貫主張是:企業(yè)不會(huì)為了治理數(shù)據(jù)而治理數(shù)據(jù),背后都是為了實(shí)現(xiàn)業(yè)務(wù)和管理的目標(biāo),而數(shù)據(jù)質(zhì)量管理的目的就是更好地實(shí)現(xiàn)業(yè)務(wù)的期望。
第一,將企業(yè)的業(yè)務(wù)目標(biāo)對(duì)應(yīng)到數(shù)據(jù)質(zhì)量管理策略和計(jì)劃中。
第二,讓業(yè)務(wù)人員深度參與甚至主導(dǎo)數(shù)據(jù)質(zhì)量管理,作為數(shù)據(jù)主要用戶的業(yè)務(wù)部門可以更好地定義數(shù)據(jù)質(zhì)量參數(shù)。
第三,將業(yè)務(wù)問題定義清楚,這樣才能分析出數(shù)據(jù)數(shù)量問題的根本原因,進(jìn)而制定出更合理的解決方案。
② 數(shù)據(jù)質(zhì)量測(cè)量
數(shù)據(jù)質(zhì)量測(cè)量是圍繞業(yè)務(wù)需求設(shè)計(jì)數(shù)據(jù)評(píng)估維度和指標(biāo),利用數(shù)據(jù)質(zhì)量管理工具完成對(duì)相關(guān)數(shù)據(jù)源的數(shù)據(jù)質(zhì)量情況的評(píng)估,并根據(jù)測(cè)量結(jié)果歸類數(shù)據(jù)問題、分析引起數(shù)據(jù)問題的原因。
第一,數(shù)據(jù)質(zhì)量測(cè)量以數(shù)據(jù)質(zhì)量問題對(duì)業(yè)務(wù)的影響分析為指導(dǎo),清晰定義出待測(cè)量數(shù)據(jù)的范圍和優(yōu)先級(jí)等重要參數(shù)。
第二,采用自上而下和自下而上相結(jié)合的策略識(shí)別數(shù)據(jù)中的異常問題。自上而下的方法是以業(yè)務(wù)目標(biāo)為出發(fā)點(diǎn),對(duì)待測(cè)量的數(shù)據(jù)源進(jìn)行評(píng)估和衡量;自下而上的方法是基于數(shù)據(jù)概要分析,識(shí)別數(shù)據(jù)源問題并將其映射到對(duì)業(yè)務(wù)目標(biāo)的潛在影響上。
第三,形成數(shù)據(jù)治理評(píng)估報(bào)告,通過該報(bào)告清楚列出數(shù)據(jù)質(zhì)量的測(cè)量結(jié)果。
③ 根本原因分析
產(chǎn)生數(shù)據(jù)質(zhì)量問題的原因有很多,但是有些原因僅是表象,并不是根本原因。要做好數(shù)據(jù)質(zhì)量管理,應(yīng)抓住影響數(shù)據(jù)質(zhì)量的關(guān)鍵因素,設(shè)置質(zhì)量管理點(diǎn)或質(zhì)量控制點(diǎn),從數(shù)據(jù)的源頭抓起,從根本上解決數(shù)據(jù)質(zhì)量問題。
④ 實(shí)施改進(jìn)方案
沒有一種通用的方案來保證企業(yè)每個(gè)業(yè)務(wù)每類數(shù)據(jù)的準(zhǔn)確性和完整性。企業(yè)需要結(jié)合產(chǎn)生數(shù)據(jù)問題的根本原因以及數(shù)據(jù)對(duì)業(yè)務(wù)的影響程度,來定義數(shù)據(jù)質(zhì)量規(guī)則和數(shù)據(jù)質(zhì)量指標(biāo),形成一個(gè)符合企業(yè)業(yè)務(wù)需求的、獨(dú)一無二的數(shù)據(jù)質(zhì)量改進(jìn)方案,并立即付諸行動(dòng)。
⑤ 控制數(shù)據(jù)質(zhì)量
數(shù)據(jù)質(zhì)量控制是在企業(yè)的數(shù)據(jù)環(huán)境中設(shè)置一道數(shù)據(jù)質(zhì)量“防火墻”,以預(yù)防不良數(shù)據(jù)的產(chǎn)生。數(shù)據(jù)質(zhì)量“防火墻”就是根據(jù)數(shù)據(jù)問題的根因分析和問題處理策略,在發(fā)生數(shù)據(jù)問題的入口設(shè)置的數(shù)據(jù)問題測(cè)量和監(jiān)控程序,在數(shù)據(jù)環(huán)境的源頭或者上游進(jìn)行的數(shù)據(jù)問題防治,從而避免不良數(shù)據(jù)向下游傳播并污染后續(xù)的存儲(chǔ),進(jìn)而影響業(yè)務(wù)。
(2)數(shù)據(jù)質(zhì)量管理制度
數(shù)據(jù)質(zhì)量管理制度設(shè)置考核KPI,通過專項(xiàng)考核計(jì)分的方式對(duì)企業(yè)各業(yè)務(wù)域、各部門的數(shù)據(jù)質(zhì)量管理情況進(jìn)行評(píng)估。以數(shù)據(jù)質(zhì)量的評(píng)估結(jié)果為依據(jù),將問題數(shù)據(jù)歸結(jié)到相應(yīng)的分類,并按所在分類的權(quán)重進(jìn)行量化??偨Y(jié)發(fā)生數(shù)據(jù)質(zhì)量問題的規(guī)律,利用數(shù)據(jù)質(zhì)量管理工具定期對(duì)數(shù)據(jù)質(zhì)量進(jìn)行監(jiān)控和測(cè)量,及時(shí)發(fā)現(xiàn)存在的數(shù)據(jù)質(zhì)量問題,并督促落實(shí)改正。
數(shù)據(jù)質(zhì)量考核制度實(shí)行獎(jiǎng)懲結(jié)合制,每次根據(jù)各業(yè)務(wù)域數(shù)據(jù)質(zhì)量KPI的檢核情況,給予相應(yīng)的獎(jiǎng)罰分值,并將數(shù)據(jù)質(zhì)量專項(xiàng)考核結(jié)果納入對(duì)人員和部門的整體績(jī)效考核體系中。
數(shù)據(jù)質(zhì)量管理制度的作用在于約束各方加強(qiáng)數(shù)據(jù)質(zhì)量意識(shí),督促各方在日常工作中重視數(shù)據(jù)質(zhì)量,在發(fā)現(xiàn)問題時(shí)能夠追根溯源、主動(dòng)解決。

6.2 事中控制
數(shù)據(jù)質(zhì)量管理的事中控制是指在數(shù)據(jù)的維護(hù)和使用過程中監(jiān)控和管理數(shù)據(jù)質(zhì)量。通過建立數(shù)據(jù)質(zhì)量的流程化控制體系,對(duì)數(shù)據(jù)的創(chuàng)建、變更、采集、清洗、轉(zhuǎn)換、裝載、分析等各個(gè)環(huán)節(jié)的數(shù)據(jù)質(zhì)量進(jìn)行控制。


247210bk-5.png

6.2.1 加強(qiáng)數(shù)據(jù)源頭的控制
“問渠那得清如許,為有源頭活水來?!绷私鈹?shù)據(jù)的來源對(duì)于企業(yè)的數(shù)據(jù)質(zhì)量至關(guān)重要,從數(shù)據(jù)的源頭控制好數(shù)據(jù)質(zhì)量,讓數(shù)據(jù)“規(guī)范化輸入、標(biāo)準(zhǔn)化輸出”是解決企業(yè)數(shù)據(jù)質(zhì)量問題的關(guān)鍵所在。企業(yè)可以考慮從以下幾個(gè)方面做好源頭數(shù)據(jù)質(zhì)量的管理。
(1)維護(hù)好數(shù)據(jù)字典
數(shù)據(jù)字典是記錄標(biāo)準(zhǔn)數(shù)據(jù)、確保數(shù)據(jù)質(zhì)量的重要工具。數(shù)據(jù)會(huì)隨著時(shí)間累積,如果數(shù)據(jù)積累在電子表格等非正式數(shù)據(jù)系統(tǒng)中,那么這些寶貴的數(shù)據(jù)就可能會(huì)存在一定的風(fēng)險(xiǎn),例如可能會(huì)隨著關(guān)鍵員工的離職而丟失。通過建立企業(yè)級(jí)數(shù)據(jù)字典對(duì)企業(yè)的關(guān)鍵數(shù)據(jù)進(jìn)行有效標(biāo)識(shí),并清晰、準(zhǔn)確地對(duì)每個(gè)數(shù)據(jù)元素進(jìn)行定義,可以消除不同部門、不同人員對(duì)數(shù)據(jù)可能的誤解,并讓企業(yè)在IT項(xiàng)目上節(jié)省大量時(shí)間和成本。
(2)自動(dòng)化數(shù)據(jù)輸入
數(shù)據(jù)質(zhì)量差的一個(gè)根本原因是人為因素,手動(dòng)輸入數(shù)據(jù),很難避免數(shù)據(jù)錯(cuò)誤。因此,企業(yè)應(yīng)該考慮自動(dòng)化輸入數(shù)據(jù),以減少人為錯(cuò)誤。一個(gè)方案,只要系統(tǒng)可以自動(dòng)執(zhí)行某些操作就值得實(shí)施,例如,根據(jù)關(guān)鍵字自動(dòng)匹配客戶信息并自動(dòng)帶入表單。
(3)自動(dòng)化數(shù)據(jù)校驗(yàn)
對(duì)于疾病,預(yù)防比治療更容易,數(shù)據(jù)治理也一樣。我們可以通過預(yù)設(shè)的數(shù)據(jù)質(zhì)量規(guī)則對(duì)輸入的數(shù)據(jù)進(jìn)行自動(dòng)化校驗(yàn),對(duì)于不符合質(zhì)量規(guī)則的數(shù)據(jù)進(jìn)行提醒或拒絕保存。數(shù)據(jù)質(zhì)量校驗(yàn)規(guī)則包括但不限于以下幾類。

數(shù)據(jù)類型正確性:數(shù)字、整數(shù)、文本、日期、參照、附件等。
數(shù)據(jù)去重校驗(yàn):完全重復(fù)的數(shù)據(jù)項(xiàng)、疑似重復(fù)的數(shù)據(jù)項(xiàng)等。
數(shù)據(jù)域值范圍:最大值、最小值、可接受的值、不可接受的值。
數(shù)據(jù)分類規(guī)則:用來確定數(shù)據(jù)屬于某個(gè)分類的規(guī)則,確保正確歸類。
單位是否正確:確保使用正確的計(jì)量單位。
數(shù)據(jù)權(quán)限的識(shí)別:數(shù)據(jù)新增、修改、查看、刪除、使用等權(quán)限是否受控,例如,數(shù)據(jù)字段中是否包含不能向游客開放的專有信息。
(4)人工干預(yù)審核
數(shù)據(jù)質(zhì)量審核是從源頭上控制數(shù)據(jù)質(zhì)量的重要手段,采用流程驅(qū)動(dòng)的數(shù)據(jù)管理模式,控制數(shù)據(jù)的新增和變更,每個(gè)操作都需要人工進(jìn)行審核,只有審核通過數(shù)據(jù)才能生效。例如:供應(yīng)商主數(shù)據(jù)發(fā)生新增或變更,就可以采用人工審核的方式來控制數(shù)據(jù)質(zhì)量。
6.2.2 加強(qiáng)流轉(zhuǎn)過程的控制
數(shù)據(jù)質(zhì)量問題不止發(fā)生在源頭,如果以最終用戶為終點(diǎn),那么數(shù)據(jù)采集、存儲(chǔ)、傳輸、處理、分析中的每一個(gè)環(huán)節(jié)都有可能出現(xiàn)數(shù)據(jù)質(zhì)量問題。所以,要對(duì)數(shù)據(jù)全生命周期中的各個(gè)過程都做好數(shù)據(jù)質(zhì)量的全面預(yù)防。數(shù)據(jù)流轉(zhuǎn)過程的質(zhì)量控制策略如下。
(1)數(shù)據(jù)采集
在數(shù)據(jù)采集階段,可采用以下質(zhì)量控制策略:

明確數(shù)據(jù)采集需求并形成確認(rèn)單;
數(shù)據(jù)采集過程和模型的標(biāo)準(zhǔn)化;
數(shù)據(jù)源提供準(zhǔn)確、及時(shí)、完整的數(shù)據(jù);
將數(shù)據(jù)的新增和更改以消息的方式及時(shí)廣播到其他應(yīng)用程序;
確保數(shù)據(jù)采集的詳細(xì)程度或粒度滿足業(yè)務(wù)的需要;
定義采集數(shù)據(jù)的每個(gè)數(shù)據(jù)元的可接受值域范圍;
確保數(shù)據(jù)采集工具、采集方法、采集流程已通過驗(yàn)證。
(2)數(shù)據(jù)存儲(chǔ)
在數(shù)據(jù)存儲(chǔ)階段,可采用以下質(zhì)量控制策略:
選擇適當(dāng)?shù)臄?shù)據(jù)庫系統(tǒng),設(shè)計(jì)合理的數(shù)據(jù)表;
將數(shù)據(jù)以適當(dāng)?shù)念w粒度進(jìn)行存儲(chǔ);
建立適當(dāng)?shù)臄?shù)據(jù)保留時(shí)間表;
建立適當(dāng)?shù)臄?shù)據(jù)所有權(quán)和查詢權(quán)限;
明確訪問和查詢數(shù)據(jù)的準(zhǔn)則和方法。
(3)數(shù)據(jù)傳輸
在數(shù)據(jù)傳輸階段,可采用以下質(zhì)量控制策略:
明確數(shù)據(jù)傳輸邊界或數(shù)據(jù)傳輸限制;
保證數(shù)據(jù)傳輸?shù)募皶r(shí)性、完整性、安全性;
保證數(shù)據(jù)傳輸過程的可靠性,確保傳輸過程數(shù)據(jù)不會(huì)被篡改;
明確數(shù)據(jù)傳輸技術(shù)和工具對(duì)數(shù)據(jù)質(zhì)量的影響。
(4)數(shù)據(jù)處理
在數(shù)據(jù)處理階段,可采用以下質(zhì)量控制策略:
合理處理數(shù)據(jù),確保數(shù)據(jù)處理符合業(yè)務(wù)目標(biāo);
重復(fù)值的處理;
缺失值的處理;
異常值的處理;
不一致數(shù)據(jù)的處理。
(5)數(shù)據(jù)分析
確保數(shù)據(jù)分析的算法、公式和分析系統(tǒng)有效且準(zhǔn)確;
確保要分析的數(shù)據(jù)完整且有效;
在可重現(xiàn)的情況下分析數(shù)據(jù);
基于適當(dāng)?shù)念w粒度分析數(shù)據(jù);
顯示適當(dāng)?shù)臄?shù)據(jù)比較和關(guān)系。
6.2.3 事中控制的相關(guān)策略
(1)質(zhì)量規(guī)則的持續(xù)更新
數(shù)據(jù)質(zhì)量管理不是一次性的工作,而是一個(gè)不間斷的過程,企業(yè)需要定期檢查數(shù)據(jù)質(zhì)量規(guī)則對(duì)業(yè)務(wù)的滿足度,并不斷改進(jìn)它們。另外,企業(yè)和業(yè)務(wù)環(huán)境在不斷變化,因此企業(yè)需要提出新的數(shù)據(jù)質(zhì)量規(guī)則來應(yīng)對(duì)這些變化。
(2)數(shù)據(jù)質(zhì)量的持續(xù)監(jiān)控
DQAF給出了一種數(shù)據(jù)質(zhì)量的持續(xù)監(jiān)控方法,叫作聯(lián)機(jī)測(cè)量,它強(qiáng)調(diào)利用數(shù)據(jù)質(zhì)量管理工具的自動(dòng)化功能,將定義好的數(shù)據(jù)質(zhì)量規(guī)則作用于數(shù)據(jù)測(cè)量對(duì)象(數(shù)據(jù)源),實(shí)現(xiàn)對(duì)數(shù)據(jù)質(zhì)量有效性的持續(xù)性檢查,以便發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問題和確定改進(jìn)方案。
(3)使用先進(jìn)的技術(shù)
我們可以利用人工智能技術(shù)來進(jìn)行數(shù)據(jù)質(zhì)量監(jiān)控、評(píng)價(jià)和改善,以應(yīng)對(duì)不斷增加的數(shù)據(jù)和日趨復(fù)雜的數(shù)據(jù)環(huán)境等的挑戰(zhàn)。人工智能技術(shù)在數(shù)據(jù)質(zhì)量管理中的應(yīng)用包括:

更好地識(shí)別和解析企業(yè)的數(shù)據(jù);
更好地了解和量化數(shù)據(jù)質(zhì)量;
更好地進(jìn)行數(shù)據(jù)質(zhì)量問題分析;
更好地進(jìn)行數(shù)據(jù)匹配和刪除重復(fù)數(shù)據(jù);
更好地豐富企業(yè)的數(shù)據(jù)。
(4)數(shù)據(jù)質(zhì)量預(yù)警機(jī)制
數(shù)據(jù)質(zhì)量預(yù)警機(jī)制用于對(duì)在數(shù)據(jù)質(zhì)量監(jiān)控過程中發(fā)現(xiàn)的數(shù)據(jù)質(zhì)量問題進(jìn)行預(yù)警和提醒。例如,通過微信、短信的形式提醒數(shù)據(jù)管理員發(fā)生了數(shù)據(jù)質(zhì)量問題,通過電子郵件的形式向數(shù)據(jù)管理員發(fā)送數(shù)據(jù)質(zhì)量問題列表等,以便相關(guān)人員及時(shí)采取改善或補(bǔ)救措施。
(5)數(shù)據(jù)質(zhì)量報(bào)告 數(shù)據(jù)質(zhì)量報(bào)告有利于清晰地顯示數(shù)據(jù)質(zhì)量測(cè)量和評(píng)估情況,方便相關(guān)數(shù)據(jù)質(zhì)量責(zé)任人分析數(shù)據(jù)問題,制定處理方案。數(shù)據(jù)質(zhì)量報(bào)告有兩種常見的形式:一種是以儀表板的形式統(tǒng)計(jì)數(shù)據(jù)質(zhì)量問題,顯示數(shù)據(jù)質(zhì)量KPI,幫助數(shù)據(jù)管理者分析和定位數(shù)據(jù)質(zhì)量問題;另一種是生成數(shù)據(jù)質(zhì)量問題日志,該日志記錄了已知的數(shù)據(jù)問題,能夠幫助企業(yè)預(yù)防數(shù)據(jù)質(zhì)量問題和執(zhí)行數(shù)據(jù)清理活動(dòng)。
6.3 事后補(bǔ)救
是不是做好了事前預(yù)防和事中控制就不會(huì)再有數(shù)據(jù)質(zhì)量問題發(fā)生了?答案顯然是否定的。事實(shí)上,不論我們采取了多少預(yù)防措施、進(jìn)行了多么嚴(yán)格的過程控制,數(shù)據(jù)問題總是還有“漏網(wǎng)之魚”。你會(huì)發(fā)現(xiàn)只要是人為干預(yù)的過程,總會(huì)存在數(shù)據(jù)質(zhì)量問題,而即使拋開人為因素,數(shù)據(jù)質(zhì)量問題也無法避免。為了盡可能減少數(shù)據(jù)質(zhì)量問題,減輕數(shù)據(jù)質(zhì)量問題對(duì)業(yè)務(wù)的影響,我們需要及時(shí)發(fā)現(xiàn)它并采取相應(yīng)的補(bǔ)救措施。

6.3.1 定期質(zhì)量監(jiān)控
定期質(zhì)量監(jiān)控也叫定期數(shù)據(jù)測(cè)量,是對(duì)某些非關(guān)鍵性數(shù)據(jù)和不適合持續(xù)測(cè)量的數(shù)據(jù)定期重新評(píng)估,為數(shù)據(jù)所處狀態(tài)符合預(yù)期提供一定程度的保證。定期監(jiān)控?cái)?shù)據(jù)的狀況,為數(shù)據(jù)在某種程度上符合預(yù)期提供保障,發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問題及數(shù)據(jù)質(zhì)量問題的變化,從而制定有效的改進(jìn)措施。
定期質(zhì)量監(jiān)控就像人們定期體檢一樣,定期檢查身體的健康狀態(tài),當(dāng)某次體檢數(shù)據(jù)發(fā)生明顯變化時(shí),醫(yī)生就會(huì)知道有哪些數(shù)據(jù)出現(xiàn)異常,并根據(jù)這些異常數(shù)據(jù)采取適當(dāng)?shù)闹委煷胧?。?duì)于數(shù)據(jù)也一樣,需要定期對(duì)企業(yè)數(shù)據(jù)治理進(jìn)行全面“體檢”,找到問題的“病因”,以實(shí)現(xiàn)數(shù)據(jù)質(zhì)量的持續(xù)提升。

6.3.2 數(shù)據(jù)問題補(bǔ)救
盡管數(shù)據(jù)質(zhì)量控制可以在很大程度上起到控制和預(yù)防不良數(shù)據(jù)發(fā)生的作用,但事實(shí)上,再嚴(yán)格的質(zhì)量控制也無法做到100%的數(shù)據(jù)問題防治,甚至過于嚴(yán)格的數(shù)據(jù)質(zhì)量控制還會(huì)引起其他數(shù)據(jù)問題。因此,企業(yè)需要不時(shí)進(jìn)行主動(dòng)的數(shù)據(jù)清理和補(bǔ)救措施,以糾正現(xiàn)有的數(shù)據(jù)問題。
(1)清理重復(fù)數(shù)據(jù)
對(duì)經(jīng)過數(shù)據(jù)質(zhì)量檢核檢查出的重復(fù)數(shù)據(jù)進(jìn)行人工或自動(dòng)處理,處理的方法有刪除或合并。例如:對(duì)于兩條完全相同的重復(fù)記錄,刪除其中一條;如果重復(fù)的記錄不完全相同,則將兩條記錄合并為一條,或者只保留相對(duì)完整、準(zhǔn)確的那條。
(2)清理派生數(shù)據(jù)
派生數(shù)據(jù)是由其他數(shù)據(jù)派生出來的數(shù)據(jù),例如:“利潤(rùn)率”就是在“利潤(rùn)”的基礎(chǔ)上計(jì)算得出的,它就是派生數(shù)據(jù)。而一般情況下,存儲(chǔ)派生出的數(shù)據(jù)是多余的,不僅會(huì)增加存儲(chǔ)和維護(hù)成本,而且會(huì)增大數(shù)據(jù)出錯(cuò)的風(fēng)險(xiǎn)。如果由于某種原因,利潤(rùn)率的計(jì)算方式發(fā)生了變化,那么必須重新計(jì)算該值,這就會(huì)增加發(fā)生錯(cuò)誤的機(jī)會(huì)。因此,需要對(duì)派生數(shù)據(jù)進(jìn)行清理,可以存儲(chǔ)其相關(guān)算法和公式,而不是結(jié)果。
(3)缺失值處理
處理缺失值的策略是對(duì)缺失值進(jìn)行插補(bǔ)修復(fù),有兩種方式:人工插補(bǔ)和自動(dòng)插補(bǔ)。對(duì)于“小數(shù)據(jù)”的數(shù)據(jù)缺失值,一般采用人工插補(bǔ)的方式,例如主數(shù)據(jù)的完整性治理。而對(duì)于大數(shù)據(jù)的數(shù)據(jù)缺失值問題,一般采用自動(dòng)插補(bǔ)的方式進(jìn)行修復(fù)。自動(dòng)插補(bǔ)主要有三種方式:

利用上下文插值修復(fù);
采用平均值、最大值或最小值修復(fù);
采用默認(rèn)值修復(fù)。
當(dāng)然,最為有效的方法是采用相近或相似數(shù)值進(jìn)行插補(bǔ),例如利用機(jī)器學(xué)習(xí)算法找到相似值進(jìn)行插補(bǔ)修復(fù)。
(4)異常值處理
異常值處理的核心是找到異常值。異常值的檢測(cè)方法有很多,大多要用到以下機(jī)器學(xué)習(xí)技術(shù):

基于統(tǒng)計(jì)的異常檢測(cè);
基于距離的異常檢測(cè);
基于密度的異常檢測(cè);
基于聚類的異常檢測(cè)。
檢測(cè)出異常值后,處理就相對(duì)簡(jiǎn)單了,有如下處理方法:
刪除異常值;
數(shù)據(jù)轉(zhuǎn)換或聚類;
替換異常值;
分離對(duì)待
6.3.3 持續(xù)改進(jìn)優(yōu)化
數(shù)據(jù)質(zhì)量管理是個(gè)持續(xù)的良性循環(huán),不斷進(jìn)行測(cè)量、分析、探查和改進(jìn)可全面改善企業(yè)的信息質(zhì)量。通過對(duì)數(shù)據(jù)質(zhì)量管理策略的不斷優(yōu)化和改進(jìn),從對(duì)于數(shù)據(jù)問題甚至緊急的數(shù)據(jù)故障只能被動(dòng)做出反應(yīng),過渡到主動(dòng)預(yù)防和控制數(shù)據(jù)缺陷的發(fā)生。
247210bk-6.png

經(jīng)過數(shù)據(jù)質(zhì)量測(cè)量、數(shù)據(jù)問題根因分析以及數(shù)據(jù)質(zhì)量問題修復(fù),我們可以回過頭來評(píng)估數(shù)據(jù)模型設(shè)計(jì)是否合理,是否還有優(yōu)化和提升的空間,數(shù)據(jù)的新增、變更、采集、存儲(chǔ)、傳輸、處理、分析各個(gè)過程是否規(guī)范,預(yù)置的質(zhì)量規(guī)則和閾值是否合理。如果模型和流程存在不合理的地方或可優(yōu)化的空間,那么就實(shí)施這些優(yōu)化。
事后補(bǔ)救始終不是數(shù)據(jù)質(zhì)量管理的最理想方式,建議堅(jiān)持以預(yù)防為主的原則開展數(shù)據(jù)質(zhì)量管理,并通過持續(xù)的數(shù)據(jù)質(zhì)量測(cè)量和探查,不斷發(fā)現(xiàn)問題,改進(jìn)方法,提升質(zhì)量。

7. 總結(jié)
數(shù)據(jù)質(zhì)量影響的不僅是信息化建設(shè)的成敗,更是影響企業(yè)業(yè)務(wù)協(xié)同、管理創(chuàng)新、決策支持的核心要素。對(duì)于數(shù)據(jù)質(zhì)量的管理,堅(jiān)持“垃圾進(jìn),垃圾出”的總體思想,堅(jiān)持“事前預(yù)防、事中控制、事后補(bǔ)救”的數(shù)據(jù)質(zhì)量管理策略 ,持續(xù)提升企業(yè)數(shù)據(jù)質(zhì)量水平。盡管可能沒有一種真正的萬無一失的方法來防止所有數(shù)據(jù)質(zhì)量問題,但是使數(shù)據(jù)質(zhì)量成為企業(yè)數(shù)據(jù)環(huán)境DNA的一部分將在很大程度上能夠獲得業(yè)務(wù)用戶和領(lǐng)導(dǎo)的信任。
隨著大數(shù)據(jù)的發(fā)展,企業(yè)用數(shù)需求與日俱增,解決數(shù)據(jù)質(zhì)量問題變得比以往任何時(shí)候都重要。技術(shù)的發(fā)展、業(yè)務(wù)的變化、數(shù)據(jù)的增加讓企業(yè)的數(shù)據(jù)環(huán)境日益復(fù)雜多變。因此,企業(yè)的數(shù)據(jù)質(zhì)量管理是一個(gè)持續(xù)的過程,永遠(yuǎn)也不會(huì)出現(xiàn)所謂的“最佳時(shí)機(jī)”,換句話說,企業(yè)進(jìn)行數(shù)據(jù)質(zhì)量管理的最佳時(shí)機(jī)就是現(xiàn)在!



作者: 教你學(xué)懂大數(shù)據(jù)


歡迎關(guān)注微信公眾號(hào) :教你學(xué)懂大數(shù)據(jù)