全面解析數(shù)據(jù)質(zhì)量管理【建議收藏】

前言

大家好,我是唐三少。大數(shù)據(jù)蘊(yùn)藏著大價值,但想要將大數(shù)據(jù)的價值充分發(fā)揮出來,首先必須要確保收集來的數(shù)據(jù)質(zhì)量可靠,否則即使擁有最好的硬件、應(yīng)用系統(tǒng)和數(shù)據(jù)分析平臺,也難以保障業(yè)務(wù)的最終成果。數(shù)據(jù)質(zhì)量差的大數(shù)據(jù)帶來的很可能不是洞見,而是誤導(dǎo),甚至是慘痛的損失。

1. 什么是數(shù)據(jù)質(zhì)量

247210bk-1.png

在DIKW金字塔模型中,數(shù)據(jù)出于底層,在數(shù)據(jù)之上,是經(jīng)過數(shù)據(jù)加工之后的形成的信息,即上下文的數(shù)據(jù)。在往上,我們將知識視為可操作的信息,并將頂級智慧視為可應(yīng)用的知識。如果數(shù)據(jù)質(zhì)量差,則信息質(zhì)量將不佳。信息質(zhì)量差,業(yè)務(wù)操作方面將缺乏可應(yīng)用的知識,而使用錯誤的知識將對業(yè)務(wù)結(jié)果帶來高風(fēng)險。
所以,所有數(shù)據(jù)都有一定程度的質(zhì)量,該程度在一定意義上是可評估,可測量的。高質(zhì)量數(shù)據(jù)的定義是什么:
■ 數(shù)據(jù)適合預(yù)期的使用目的
■ 數(shù)據(jù)正確的表達(dá)了所描述事物和現(xiàn)象的真實構(gòu)造
■ 數(shù)據(jù)符合某個標(biāo)準(zhǔn)或 達(dá)到人們期望的水平
無論從哪個定義來看,數(shù)據(jù)質(zhì)量都是指數(shù)據(jù)滿足人們的隱性或顯性期望的程度。人們判斷數(shù)據(jù)質(zhì)量的高低取決于人們的期望,當(dāng)然高質(zhì)量的數(shù)據(jù)更符合期望。
人們的期望很復(fù)雜,不僅在于數(shù)據(jù)應(yīng)該表示什么,還在于使用數(shù)據(jù)的目的和如何使用它們。所以數(shù)據(jù)質(zhì)量是相對的,主觀的,還可能是矛盾的。比如同一條客戶信息,對于銷售部門來說是高質(zhì)量的,因為他只需要知道賣給了誰;對于物流部門來說,除了用戶基本信息,還需要知道收貨信息(收貨人地址,姓名,電話等);對于財務(wù)部門來說,除了上面的信息,還需要關(guān)注客戶的開票信息。如果這一條客戶信息不完整,就無法進(jìn)行客戶服務(wù),因為該數(shù)據(jù)沒有完整且正確地描述在業(yè)務(wù)運(yùn)營中所需的真實身份和地點(diǎn),這會對企業(yè)業(yè)務(wù)帶來影響。

2. 數(shù)據(jù)質(zhì)量差的后果
2.1 經(jīng)濟(jì)損失
質(zhì)量差最直接的影響就是遭受經(jīng)濟(jì)損失。如果不了解客戶的最新產(chǎn)品和動態(tài),就會失去客戶和潛在客戶,以及他們可能帶來的收入。如果系統(tǒng)中的客戶聯(lián)系信息不正確(比如電話、電子郵箱等),客戶的家庭關(guān)系錯誤,就無法對客戶進(jìn)行精準(zhǔn)分析,甚至連營銷信息都無法送達(dá)客戶,更不用說銷售產(chǎn)品了。數(shù)據(jù)錯誤可能會給企業(yè)帶來巨大的經(jīng)濟(jì)損失甚至名譽(yù)損失。

2.2 增加成本
如果企業(yè)中存在大量不完整,不正確的數(shù)據(jù),將會給業(yè)務(wù)帶來額外的溝通成本。如果企業(yè)使用這些質(zhì)量差的數(shù)據(jù)進(jìn)行數(shù)據(jù)分析或預(yù)測分析,不僅浪費(fèi)時間,而且有可能被誤導(dǎo)。同樣,如果數(shù)據(jù)中存在重復(fù)項和缺少字段的情況,企業(yè)數(shù)據(jù)管理效率也會降低。
“垃圾進(jìn),垃圾出”,基于低質(zhì)量數(shù)據(jù)做出的分析結(jié)果一定是不可信的,不具備任何輔助決策意義,只能造成成本的浪費(fèi)。

2.3 名譽(yù)受損
有一個故事,美國一超市給還在上高中的女兒寄送嬰兒服和嬰兒床的優(yōu)惠券,而被這位父親所投訴,后來這位父親發(fā)現(xiàn)女兒真的懷孕了,又向超市道歉。假如超市的數(shù)據(jù)質(zhì)量有問題,還能準(zhǔn)確預(yù)測上高中的女兒已經(jīng)懷孕了嗎?如果預(yù)測失敗會發(fā)生什么?如果嬰兒用品的優(yōu)惠券寄錯地址又會發(fā)生什么?顯而易見,數(shù)據(jù)質(zhì)量差將可能是企業(yè)名譽(yù)受損,從而在競爭中處于不利地位。

2.4 無形成本
數(shù)據(jù)質(zhì)量差帶來的溝通成本,運(yùn)營成本以及經(jīng)濟(jì)損失屬于有形成本,可衡量的。而基于不準(zhǔn)確的數(shù)據(jù)所做出的錯誤決策造成的成本是無形,這種無形成本還可能導(dǎo)致更大更嚴(yán)重的影響。
要讓領(lǐng)導(dǎo)相信數(shù)據(jù),首先要提供高質(zhì)量的數(shù)據(jù)!

2.5 運(yùn)營風(fēng)險
低質(zhì)量的數(shù)據(jù)不僅會給企業(yè)帶來經(jīng)濟(jì)上的損失,增加企業(yè)的運(yùn)營成本,給企業(yè)的聲譽(yù)帶來影響,還可能存在潛在的運(yùn)營風(fēng)向。
運(yùn)營風(fēng)險是與企業(yè)核心業(yè)務(wù)職能執(zhí)行相關(guān)的風(fēng)險,很大程度上與人員,流程和日常業(yè)務(wù)活動所使用的系統(tǒng)有關(guān),主要包括內(nèi)部流程,外部監(jiān)管,法定業(yè)務(wù),人力資源等方面的風(fēng)險。例如:數(shù)據(jù)質(zhì)量差,不滿足監(jiān)管部門的要求,面臨審計不通過的風(fēng)險;數(shù)據(jù)質(zhì)量差,會給數(shù)據(jù)所產(chǎn)生的衍生品帶來負(fù)面影響,引起用戶的不滿和質(zhì)疑,甚至引發(fā)糾紛等。

3.什么是數(shù)據(jù)質(zhì)量維度
數(shù)據(jù)質(zhì)量類似于人類健康。影響健康的因素有很多,比如飲食、運(yùn)動、情緒等,準(zhǔn)確測量這些健康的影響因素非常困難。同樣,準(zhǔn)確測量數(shù)據(jù)質(zhì)量中影響業(yè)務(wù)的數(shù)據(jù)元素也非常困難。數(shù)據(jù)質(zhì)量差對業(yè)務(wù)而言是不“健康”的,數(shù)據(jù)質(zhì)量維度將幫助我們認(rèn)識數(shù)據(jù)質(zhì)量對業(yè)務(wù)的重要性。數(shù)據(jù)質(zhì)量維度就是用來測量或評估數(shù)據(jù)質(zhì)量的各方面,通過測量維度來對數(shù)據(jù)質(zhì)量進(jìn)行量化,通過改進(jìn)數(shù)據(jù)質(zhì)量維度來提高數(shù)據(jù)質(zhì)量。針對不同的數(shù)據(jù)集,數(shù)據(jù)質(zhì)量維度可能不同,一般包含數(shù)據(jù)的一致性,完整性,唯一性,準(zhǔn)確性,真實性,及時性和關(guān)聯(lián)性。

247210bk-2.png

3.1 一致性
數(shù)據(jù)一致性主要體現(xiàn)在多個數(shù)據(jù)源之間:
第一,多個數(shù)據(jù)源之間的元數(shù)據(jù)的一致性;主要包括命名一致性、數(shù)據(jù)結(jié)構(gòu)一致性、約束規(guī)則一致性等
第二,多個數(shù)據(jù)源之間數(shù)據(jù)記錄的一致性。主要包括數(shù)據(jù)編碼的一致性、命名及含義的一致性、數(shù)據(jù)分類層次的一致性、數(shù)據(jù)生命周期的一致性等
在相同的數(shù)據(jù)有多個副本的情況下,也會產(chǎn)生數(shù)據(jù)不一致、數(shù)據(jù)內(nèi)容沖突等問題。

3.2 完整性
數(shù)據(jù)完整性主要體現(xiàn)三個方面:
第一,數(shù)據(jù)模型的完整性,例如唯一性約束的完整性、參照數(shù)據(jù)的完整性;
第二,數(shù)據(jù)記錄的完整性,例如數(shù)據(jù)記錄是否丟失或數(shù)據(jù)是否不可用;
第三,數(shù)據(jù)屬性的完整性,例如數(shù)據(jù)屬性是否存在空值等。
不完整的數(shù)據(jù)的價值會大大降低,數(shù)據(jù)完整性是數(shù)據(jù)質(zhì)量問題中最為基礎(chǔ)和常見的一類問題。

3.3 唯一性
數(shù)據(jù)唯一性用于識別和度量冗余數(shù)據(jù)。冗余數(shù)據(jù)是導(dǎo)致業(yè)務(wù)無法協(xié)同,流程無法追溯的重要因素。例如,主數(shù)據(jù)治理中的“一物多碼,多物一碼”問題。為每個數(shù)據(jù)實體賦予唯一的“身份ID”是數(shù)據(jù)治理需要解決的基本問題。

3.4 準(zhǔn)確性
數(shù)據(jù)準(zhǔn)確性也叫可靠性,用于分析,識別和度量不準(zhǔn)確或無效的數(shù)據(jù)。數(shù)據(jù)準(zhǔn)確性體現(xiàn)為數(shù)據(jù)描述是否準(zhǔn)確,數(shù)據(jù)計算是否準(zhǔn)確,數(shù)據(jù)的值是否準(zhǔn)確等。不可靠的數(shù)據(jù)可能會導(dǎo)致嚴(yán)重的問題,會造成有缺陷的方法和糟糕的決策。

3.5 真實性
數(shù)據(jù)真實性用于度量數(shù)據(jù)是否真實、是否正確地表達(dá)了所描述事物和現(xiàn)象的真實構(gòu)造。真實可靠的原始數(shù)據(jù)是數(shù)據(jù)分析的靈魂。但事實上,數(shù)據(jù)的真實性往往難以保證,有時候數(shù)據(jù)不真實并不是因為原始的數(shù)據(jù)記錄有問題,而是人為因素所致,尤其是一些需要層層上報的數(shù)據(jù),數(shù)據(jù)失真很常見。

3.6 及時性
數(shù)據(jù)的及時性是指能否在需要的時候獲得數(shù)據(jù)。統(tǒng)計學(xué)認(rèn)為,獲得數(shù)據(jù)的時間不應(yīng)當(dāng)超過該數(shù)據(jù)對未來經(jīng)濟(jì)或業(yè)務(wù)產(chǎn)生影響的平均時間。數(shù)據(jù)也是有時效性的,過期數(shù)據(jù)的價值大打折扣。

3.7 關(guān)聯(lián)性
數(shù)據(jù)關(guān)聯(lián)性用于度量存在關(guān)系的數(shù)據(jù),即關(guān)聯(lián)關(guān)系是否缺失或錯誤。數(shù)據(jù)關(guān)聯(lián)關(guān)系包括函數(shù)關(guān)系,相關(guān)系數(shù),主外鍵關(guān)系,索引關(guān)系等。    數(shù)據(jù)之間存在關(guān)聯(lián)性問題會影響分析的結(jié)果。

4.什么是數(shù)據(jù)質(zhì)量測量
數(shù)據(jù)質(zhì)量測量是指為了達(dá)到某一預(yù)期,按照一定的標(biāo)準(zhǔn)從數(shù)據(jù)質(zhì)量維度進(jìn)行衡量,以確定數(shù)據(jù)達(dá)到預(yù)期的程度。通過測量,我們可以在不同對象之間跨越不同時間,不同空間進(jìn)行比較,從而做出決策。
要保證達(dá)成數(shù)據(jù)預(yù)期,首先要保證數(shù)據(jù)質(zhì)量測量是有效的。有效的測量的幾個特點(diǎn)。

4.1 數(shù)據(jù)測量必須要有目的
古人用“風(fēng)馬牛不相及”來形容互不相干的事物,我們也經(jīng)常說“不能拿蘋果和香蕉比較”,意思是蘋果和香蕉差異大,拿它們進(jìn)行比較沒有意義。這意味著要有兩個“相同”的對象,才能形成有意義的測量。
當(dāng)然,蘋果和香蕉之間也有共同之處,比如它們都是水果,都有果皮,果肉中都含有維生素和糖分。它們也有不同之處:香蕉是長的,蘋果是圓的;香蕉是黃色的,蘋果有紅色的、綠色的、黃色的;它們的口感也不一樣。
那么,我們?yōu)槭裁匆容^它們呢?這是問題的關(guān)鍵,我們需要一個“原因”來測量我們要測量的東西。

4.2 數(shù)據(jù)質(zhì)量測量必須可重復(fù)
測量涉及一個對比前后的變化程度,只與抽象的結(jié)果比較是遠(yuǎn)遠(yuǎn)不夠的。就像我們測量孩子的身高,孩子身高是會隨著時間的推移發(fā)生變化的,重復(fù)的測量能夠讓我們獲得這種變化的規(guī)律和程度。這就是為什么測量必須是可重復(fù)的,而不能是單次的。重復(fù)的測量意味著對事物真實性的持續(xù)探索。

4.3 數(shù)據(jù)質(zhì)量測量必須可解釋
數(shù)據(jù)質(zhì)量測量的可解釋性是保證數(shù)據(jù)測量有效的前提。如果人們無法理解被測量的是什么,那么這個測量結(jié)果就是無用的,不能幫助人們減少不確定性。
例如:企業(yè)通過統(tǒng)計職工的平均年齡來分析員工的年齡結(jié)構(gòu)。一般認(rèn)為:企業(yè)員工平均年齡在30歲以下,說明這個企業(yè)比較有活力;平均年齡在30~40歲之間,說明企業(yè)是以中青年勞動力為主力軍,員工年齡結(jié)構(gòu)處于合理區(qū)間;平均年齡超過45歲,說明企業(yè)的老齡化程度較高。如果企業(yè)員工的平均年齡超過了60歲,這就很難理解了,是統(tǒng)計數(shù)據(jù)出了問題,還是企業(yè)就只有幾名老員工?
用不能被理解的方式進(jìn)行測量,或者測量的結(jié)果不能被理解,都是無意義的。數(shù)據(jù)測量既是一個交流的工具,也是一個分析的工具。

5. 什么是數(shù)據(jù)質(zhì)量管理
上面我們已經(jīng)知道什么是數(shù)據(jù)質(zhì)量,數(shù)據(jù)質(zhì)量的維度 和 數(shù)據(jù)質(zhì)量測量,那什么是數(shù)據(jù)質(zhì)量管理呢?
數(shù)據(jù)質(zhì)量管理就是 指對數(shù)據(jù)從計劃,獲取,存儲,共享,維護(hù),應(yīng)用到消亡,這整個生命周期的每一個階段可能引發(fā)的數(shù)據(jù)質(zhì)量問題,進(jìn)行識別,測量,監(jiān)控,預(yù)警等一系列管理活動,并通過改善和提高組織的管理水平,使數(shù)據(jù)質(zhì)量獲得進(jìn)一步的提高。數(shù)據(jù)質(zhì)量管理的終極目標(biāo):通過可靠的數(shù)據(jù)提升數(shù)據(jù)在使用中的價值,并最終為企業(yè)贏得經(jīng)濟(jì)效益。
我們可以簡單地將數(shù)據(jù)質(zhì)量管理理解為一種業(yè)務(wù)原則,需要將合適的人員、流程和技術(shù)進(jìn)行有機(jī)整合,改進(jìn)數(shù)據(jù)質(zhì)量各維度的數(shù)據(jù)問題,提高數(shù)據(jù)質(zhì)量。實際上,企業(yè)數(shù)據(jù)治理的各個關(guān)鍵領(lǐng)域和關(guān)鍵活動都是圍繞如何提升數(shù)據(jù)質(zhì)量,以獲得更大的業(yè)務(wù)成果或經(jīng)濟(jì)利益而展開的。
數(shù)據(jù)質(zhì)量管理是數(shù)據(jù)治理的重要組成部分,通常用在數(shù)據(jù)模型設(shè)計、數(shù)據(jù)資產(chǎn)管理、主數(shù)據(jù)管理、數(shù)據(jù)倉庫等解決方案中。 數(shù)據(jù)質(zhì)量管理可以是反應(yīng)性的被動管理,也可以是預(yù)防性的主動管理。很多公司將數(shù)據(jù)質(zhì)量管理的技術(shù)與企業(yè)管理的流程相結(jié)合,用來提升主動管理數(shù)據(jù)質(zhì)量的能力,這是一個很好的實踐。

6. 數(shù)據(jù)質(zhì)量管理策略和技術(shù)
數(shù)據(jù)質(zhì)量管理包含正確定義數(shù)據(jù)標(biāo)準(zhǔn),并采用正確的技術(shù)、投入合理的資源來管理數(shù)據(jù)質(zhì)量。數(shù)據(jù)質(zhì)量管理策略和技術(shù)的應(yīng)用是一個比較廣泛的范疇,它可以作用于數(shù)據(jù)質(zhì)量管理的事前、事中、事后三個階段。數(shù)據(jù)質(zhì)量管理應(yīng)秉持預(yù)防為主的理念,堅持將“以預(yù)控為核心,以滿足業(yè)務(wù)需求為目標(biāo)”作為工作的根本出發(fā)點(diǎn)和落腳點(diǎn),加強(qiáng)數(shù)據(jù)質(zhì)量管理的事前預(yù)防、事中控制、事后補(bǔ)救的各種措施,以實現(xiàn)企業(yè)數(shù)據(jù)質(zhì)量的持續(xù)提升

247210bk-3.png

6.1 事前預(yù)防
事前預(yù)防即防患于未然,是數(shù)據(jù)質(zhì)量管理的上上之策。數(shù)據(jù)質(zhì)量管理的事前預(yù)防可以從組織人員、標(biāo)準(zhǔn)規(guī)范、制度流程三個方面入手。

6.1.1 加強(qiáng)組織建設(shè)
企業(yè)需要建立一種文化,以讓更多的人認(rèn)識到數(shù)據(jù)質(zhì)量的重要性,這離不開組織機(jī)制的保障。建立數(shù)據(jù)質(zhì)量管理的組織體系,明確角色職責(zé)并為每個角色配置適當(dāng)技能的人員,以及加強(qiáng)對相關(guān)人員的培訓(xùn)和培養(yǎng),這是保證數(shù)據(jù)質(zhì)量的有效方式。
(1)組織角色設(shè)置
企業(yè)在實施數(shù)據(jù)質(zhì)量管理時,應(yīng)考慮在數(shù)據(jù)治理整體的組織框架下設(shè)置相關(guān)的數(shù)據(jù)質(zhì)量管理角色,并確定他們在數(shù)據(jù)質(zhì)量管理中的職責(zé)分工。常見的組織角色及其職責(zé)如下。
數(shù)據(jù)治理委員會:為數(shù)據(jù)質(zhì)量定下基調(diào),制定有關(guān)數(shù)據(jù)基礎(chǔ)架構(gòu)和流程的決策。數(shù)據(jù)治理委員會確保在整個企業(yè)范圍內(nèi)采用與數(shù)據(jù)質(zhì)量相關(guān)的類似方法和政策,并在組織的所有職能部門之間進(jìn)行橫向調(diào)整。數(shù)據(jù)治理委員會定期開會以新的數(shù)據(jù)質(zhì)量目標(biāo),推動測量并分析各個業(yè)務(wù)部門內(nèi)數(shù)據(jù)質(zhì)量的狀態(tài)。
數(shù)據(jù)分析師:負(fù)責(zé)數(shù)據(jù)問題的根因分析,以便為數(shù)據(jù)質(zhì)量解決方案的制定提供決策依據(jù)。
數(shù)據(jù)管理員:負(fù)責(zé)將數(shù)據(jù)作為公司資產(chǎn)進(jìn)行管理,保障數(shù)據(jù)質(zhì)量,例如定期數(shù)據(jù)清理、刪除重復(fù)數(shù)據(jù)或解決其他數(shù)據(jù)問題。
(2)加強(qiáng)人員培訓(xùn)
數(shù)據(jù)不準(zhǔn)確的主要原因是人為因素,加強(qiáng)對相關(guān)人員的培訓(xùn),提升人員的數(shù)據(jù)質(zhì)量意識,能夠有效減少數(shù)據(jù)質(zhì)量問題的發(fā)生。
數(shù)據(jù)質(zhì)量管理培訓(xùn)是一個雙贏的過程。對于員工來說,通過培訓(xùn),自己不僅能夠認(rèn)識到數(shù)據(jù)質(zhì)量對業(yè)務(wù)和管理的重要性,還能學(xué)習(xí)到數(shù)據(jù)管理理論、技術(shù)、工具等知識和技能,確保上游業(yè)務(wù)人員知道他們的數(shù)據(jù)對下游業(yè)務(wù)和應(yīng)用程序的影響,讓自己在工作中盡可能不犯錯、少犯錯,提高自己的業(yè)務(wù)處理效率和質(zhì)量。對于企業(yè)來說,通過培訓(xùn),可以使數(shù)據(jù)標(biāo)準(zhǔn)得到宣貫,提升員工的數(shù)據(jù)思維和對數(shù)據(jù)的認(rèn)識水平,建立起企業(yè)的數(shù)據(jù)文化,以支撐企業(yè)數(shù)據(jù)治理的長治久安。
此外,企業(yè)應(yīng)鼓勵員工參加專業(yè)資格認(rèn)證的培訓(xùn),這樣能夠讓相關(guān)人員更加系統(tǒng)地學(xué)習(xí)數(shù)據(jù)治理知識體系,提升數(shù)據(jù)管理的專業(yè)能力。

6.1.2 落實數(shù)據(jù)標(biāo)準(zhǔn)
數(shù)據(jù)標(biāo)準(zhǔn)的有效執(zhí)行和落地是數(shù)據(jù)質(zhì)量管理的必要條件。數(shù)據(jù)標(biāo)準(zhǔn)包括數(shù)據(jù)模型標(biāo)準(zhǔn)、主數(shù)據(jù)和參考數(shù)據(jù)標(biāo)準(zhǔn)、指標(biāo)數(shù)據(jù)標(biāo)準(zhǔn)等。
(1)數(shù)據(jù)模型標(biāo)準(zhǔn)
數(shù)據(jù)模型標(biāo)準(zhǔn)數(shù)對數(shù)據(jù)模型中的業(yè)務(wù)定義、業(yè)務(wù)規(guī)則、數(shù)據(jù)關(guān)系、數(shù)據(jù)質(zhì)量規(guī)則等進(jìn)行統(tǒng)一定義,以及通過元數(shù)據(jù)管理工具對這些標(biāo)準(zhǔn)和規(guī)則進(jìn)行統(tǒng)一管理。在數(shù)據(jù)質(zhì)量管理過程中,可以將這些標(biāo)準(zhǔn)映射到業(yè)務(wù)流程中,并將數(shù)據(jù)標(biāo)準(zhǔn)作為數(shù)據(jù)質(zhì)量評估的依據(jù),實現(xiàn)數(shù)據(jù)質(zhì)量的稽查核驗,使得數(shù)據(jù)的質(zhì)量校驗有據(jù)可依,有法可循。
(2)主數(shù)據(jù)和參考數(shù)據(jù)標(biāo)準(zhǔn)
主數(shù)據(jù)和參考數(shù)據(jù)標(biāo)準(zhǔn)包含主數(shù)據(jù)和參考數(shù)據(jù)的分類標(biāo)準(zhǔn)、編碼標(biāo)準(zhǔn)、模型標(biāo)準(zhǔn),它們是主數(shù)據(jù)和參考數(shù)據(jù)在各部門、各業(yè)務(wù)系統(tǒng)之間進(jìn)行共享的保障。如果主數(shù)據(jù)和參考數(shù)據(jù)標(biāo)準(zhǔn)無法有效執(zhí)行,就會嚴(yán)重影響主數(shù)據(jù)的質(zhì)量,帶來主數(shù)據(jù)的不一致、不完整、不唯一等問題,進(jìn)而影響業(yè)務(wù)協(xié)同和決策支持。
(3)指標(biāo)數(shù)據(jù)標(biāo)準(zhǔn)
指標(biāo)數(shù)據(jù)是在業(yè)務(wù)數(shù)據(jù)基礎(chǔ)上按照一定業(yè)務(wù)規(guī)則加工匯總的數(shù)據(jù),指標(biāo)數(shù)據(jù)標(biāo)準(zhǔn)主要涵蓋業(yè)務(wù)屬性、技術(shù)屬性、管理屬性三個方面。
指標(biāo)數(shù)據(jù)標(biāo)準(zhǔn)統(tǒng)一了分析指標(biāo)的統(tǒng)計口徑、統(tǒng)計維度、計算方法的基礎(chǔ),不僅是各業(yè)務(wù)部門共識的基礎(chǔ),也是數(shù)據(jù)倉庫、BI項目的主要建設(shè)內(nèi)容,為數(shù)據(jù)倉庫的數(shù)據(jù)質(zhì)量稽查提供依據(jù)。






6.1.3 制度流程保障
(1)數(shù)據(jù)質(zhì)量管理流程
數(shù)據(jù)質(zhì)量管理是一個閉環(huán)管理流程,包括業(yè)務(wù)需求定義、數(shù)據(jù)質(zhì)量測量、根本原因分析、實施改進(jìn)方案、控制數(shù)據(jù)質(zhì)量。
247210bk-4.png

① 業(yè)務(wù)需求定義
筆者的一貫主張是:企業(yè)不會為了治理數(shù)據(jù)而治理數(shù)據(jù),背后都是為了實現(xiàn)業(yè)務(wù)和管理的目標(biāo),而數(shù)據(jù)質(zhì)量管理的目的就是更好地實現(xiàn)業(yè)務(wù)的期望。
第一,將企業(yè)的業(yè)務(wù)目標(biāo)對應(yīng)到數(shù)據(jù)質(zhì)量管理策略和計劃中。
第二,讓業(yè)務(wù)人員深度參與甚至主導(dǎo)數(shù)據(jù)質(zhì)量管理,作為數(shù)據(jù)主要用戶的業(yè)務(wù)部門可以更好地定義數(shù)據(jù)質(zhì)量參數(shù)。
第三,將業(yè)務(wù)問題定義清楚,這樣才能分析出數(shù)據(jù)數(shù)量問題的根本原因,進(jìn)而制定出更合理的解決方案。
② 數(shù)據(jù)質(zhì)量測量
數(shù)據(jù)質(zhì)量測量是圍繞業(yè)務(wù)需求設(shè)計數(shù)據(jù)評估維度和指標(biāo),利用數(shù)據(jù)質(zhì)量管理工具完成對相關(guān)數(shù)據(jù)源的數(shù)據(jù)質(zhì)量情況的評估,并根據(jù)測量結(jié)果歸類數(shù)據(jù)問題、分析引起數(shù)據(jù)問題的原因。
第一,數(shù)據(jù)質(zhì)量測量以數(shù)據(jù)質(zhì)量問題對業(yè)務(wù)的影響分析為指導(dǎo),清晰定義出待測量數(shù)據(jù)的范圍和優(yōu)先級等重要參數(shù)。
第二,采用自上而下和自下而上相結(jié)合的策略識別數(shù)據(jù)中的異常問題。自上而下的方法是以業(yè)務(wù)目標(biāo)為出發(fā)點(diǎn),對待測量的數(shù)據(jù)源進(jìn)行評估和衡量;自下而上的方法是基于數(shù)據(jù)概要分析,識別數(shù)據(jù)源問題并將其映射到對業(yè)務(wù)目標(biāo)的潛在影響上。
第三,形成數(shù)據(jù)治理評估報告,通過該報告清楚列出數(shù)據(jù)質(zhì)量的測量結(jié)果。
③ 根本原因分析
產(chǎn)生數(shù)據(jù)質(zhì)量問題的原因有很多,但是有些原因僅是表象,并不是根本原因。要做好數(shù)據(jù)質(zhì)量管理,應(yīng)抓住影響數(shù)據(jù)質(zhì)量的關(guān)鍵因素,設(shè)置質(zhì)量管理點(diǎn)或質(zhì)量控制點(diǎn),從數(shù)據(jù)的源頭抓起,從根本上解決數(shù)據(jù)質(zhì)量問題。
④ 實施改進(jìn)方案
沒有一種通用的方案來保證企業(yè)每個業(yè)務(wù)每類數(shù)據(jù)的準(zhǔn)確性和完整性。企業(yè)需要結(jié)合產(chǎn)生數(shù)據(jù)問題的根本原因以及數(shù)據(jù)對業(yè)務(wù)的影響程度,來定義數(shù)據(jù)質(zhì)量規(guī)則和數(shù)據(jù)質(zhì)量指標(biāo),形成一個符合企業(yè)業(yè)務(wù)需求的、獨(dú)一無二的數(shù)據(jù)質(zhì)量改進(jìn)方案,并立即付諸行動。
⑤ 控制數(shù)據(jù)質(zhì)量
數(shù)據(jù)質(zhì)量控制是在企業(yè)的數(shù)據(jù)環(huán)境中設(shè)置一道數(shù)據(jù)質(zhì)量“防火墻”,以預(yù)防不良數(shù)據(jù)的產(chǎn)生。數(shù)據(jù)質(zhì)量“防火墻”就是根據(jù)數(shù)據(jù)問題的根因分析和問題處理策略,在發(fā)生數(shù)據(jù)問題的入口設(shè)置的數(shù)據(jù)問題測量和監(jiān)控程序,在數(shù)據(jù)環(huán)境的源頭或者上游進(jìn)行的數(shù)據(jù)問題防治,從而避免不良數(shù)據(jù)向下游傳播并污染后續(xù)的存儲,進(jìn)而影響業(yè)務(wù)。
(2)數(shù)據(jù)質(zhì)量管理制度
數(shù)據(jù)質(zhì)量管理制度設(shè)置考核KPI,通過專項考核計分的方式對企業(yè)各業(yè)務(wù)域、各部門的數(shù)據(jù)質(zhì)量管理情況進(jìn)行評估。以數(shù)據(jù)質(zhì)量的評估結(jié)果為依據(jù),將問題數(shù)據(jù)歸結(jié)到相應(yīng)的分類,并按所在分類的權(quán)重進(jìn)行量化??偨Y(jié)發(fā)生數(shù)據(jù)質(zhì)量問題的規(guī)律,利用數(shù)據(jù)質(zhì)量管理工具定期對數(shù)據(jù)質(zhì)量進(jìn)行監(jiān)控和測量,及時發(fā)現(xiàn)存在的數(shù)據(jù)質(zhì)量問題,并督促落實改正。
數(shù)據(jù)質(zhì)量考核制度實行獎懲結(jié)合制,每次根據(jù)各業(yè)務(wù)域數(shù)據(jù)質(zhì)量KPI的檢核情況,給予相應(yīng)的獎罰分值,并將數(shù)據(jù)質(zhì)量專項考核結(jié)果納入對人員和部門的整體績效考核體系中。
數(shù)據(jù)質(zhì)量管理制度的作用在于約束各方加強(qiáng)數(shù)據(jù)質(zhì)量意識,督促各方在日常工作中重視數(shù)據(jù)質(zhì)量,在發(fā)現(xiàn)問題時能夠追根溯源、主動解決。

6.2 事中控制
數(shù)據(jù)質(zhì)量管理的事中控制是指在數(shù)據(jù)的維護(hù)和使用過程中監(jiān)控和管理數(shù)據(jù)質(zhì)量。通過建立數(shù)據(jù)質(zhì)量的流程化控制體系,對數(shù)據(jù)的創(chuàng)建、變更、采集、清洗、轉(zhuǎn)換、裝載、分析等各個環(huán)節(jié)的數(shù)據(jù)質(zhì)量進(jìn)行控制。


247210bk-5.png

6.2.1 加強(qiáng)數(shù)據(jù)源頭的控制
“問渠那得清如許,為有源頭活水來?!绷私鈹?shù)據(jù)的來源對于企業(yè)的數(shù)據(jù)質(zhì)量至關(guān)重要,從數(shù)據(jù)的源頭控制好數(shù)據(jù)質(zhì)量,讓數(shù)據(jù)“規(guī)范化輸入、標(biāo)準(zhǔn)化輸出”是解決企業(yè)數(shù)據(jù)質(zhì)量問題的關(guān)鍵所在。企業(yè)可以考慮從以下幾個方面做好源頭數(shù)據(jù)質(zhì)量的管理。
(1)維護(hù)好數(shù)據(jù)字典
數(shù)據(jù)字典是記錄標(biāo)準(zhǔn)數(shù)據(jù)、確保數(shù)據(jù)質(zhì)量的重要工具。數(shù)據(jù)會隨著時間累積,如果數(shù)據(jù)積累在電子表格等非正式數(shù)據(jù)系統(tǒng)中,那么這些寶貴的數(shù)據(jù)就可能會存在一定的風(fēng)險,例如可能會隨著關(guān)鍵員工的離職而丟失。通過建立企業(yè)級數(shù)據(jù)字典對企業(yè)的關(guān)鍵數(shù)據(jù)進(jìn)行有效標(biāo)識,并清晰、準(zhǔn)確地對每個數(shù)據(jù)元素進(jìn)行定義,可以消除不同部門、不同人員對數(shù)據(jù)可能的誤解,并讓企業(yè)在IT項目上節(jié)省大量時間和成本。
(2)自動化數(shù)據(jù)輸入
數(shù)據(jù)質(zhì)量差的一個根本原因是人為因素,手動輸入數(shù)據(jù),很難避免數(shù)據(jù)錯誤。因此,企業(yè)應(yīng)該考慮自動化輸入數(shù)據(jù),以減少人為錯誤。一個方案,只要系統(tǒng)可以自動執(zhí)行某些操作就值得實施,例如,根據(jù)關(guān)鍵字自動匹配客戶信息并自動帶入表單。
(3)自動化數(shù)據(jù)校驗
對于疾病,預(yù)防比治療更容易,數(shù)據(jù)治理也一樣。我們可以通過預(yù)設(shè)的數(shù)據(jù)質(zhì)量規(guī)則對輸入的數(shù)據(jù)進(jìn)行自動化校驗,對于不符合質(zhì)量規(guī)則的數(shù)據(jù)進(jìn)行提醒或拒絕保存。數(shù)據(jù)質(zhì)量校驗規(guī)則包括但不限于以下幾類。

數(shù)據(jù)類型正確性:數(shù)字、整數(shù)、文本、日期、參照、附件等。
數(shù)據(jù)去重校驗:完全重復(fù)的數(shù)據(jù)項、疑似重復(fù)的數(shù)據(jù)項等。
數(shù)據(jù)域值范圍:最大值、最小值、可接受的值、不可接受的值。
數(shù)據(jù)分類規(guī)則:用來確定數(shù)據(jù)屬于某個分類的規(guī)則,確保正確歸類。
單位是否正確:確保使用正確的計量單位。
數(shù)據(jù)權(quán)限的識別:數(shù)據(jù)新增、修改、查看、刪除、使用等權(quán)限是否受控,例如,數(shù)據(jù)字段中是否包含不能向游客開放的專有信息。
(4)人工干預(yù)審核
數(shù)據(jù)質(zhì)量審核是從源頭上控制數(shù)據(jù)質(zhì)量的重要手段,采用流程驅(qū)動的數(shù)據(jù)管理模式,控制數(shù)據(jù)的新增和變更,每個操作都需要人工進(jìn)行審核,只有審核通過數(shù)據(jù)才能生效。例如:供應(yīng)商主數(shù)據(jù)發(fā)生新增或變更,就可以采用人工審核的方式來控制數(shù)據(jù)質(zhì)量。
6.2.2 加強(qiáng)流轉(zhuǎn)過程的控制
數(shù)據(jù)質(zhì)量問題不止發(fā)生在源頭,如果以最終用戶為終點(diǎn),那么數(shù)據(jù)采集、存儲、傳輸、處理、分析中的每一個環(huán)節(jié)都有可能出現(xiàn)數(shù)據(jù)質(zhì)量問題。所以,要對數(shù)據(jù)全生命周期中的各個過程都做好數(shù)據(jù)質(zhì)量的全面預(yù)防。數(shù)據(jù)流轉(zhuǎn)過程的質(zhì)量控制策略如下。
(1)數(shù)據(jù)采集
在數(shù)據(jù)采集階段,可采用以下質(zhì)量控制策略:

明確數(shù)據(jù)采集需求并形成確認(rèn)單;
數(shù)據(jù)采集過程和模型的標(biāo)準(zhǔn)化;
數(shù)據(jù)源提供準(zhǔn)確、及時、完整的數(shù)據(jù);
將數(shù)據(jù)的新增和更改以消息的方式及時廣播到其他應(yīng)用程序;
確保數(shù)據(jù)采集的詳細(xì)程度或粒度滿足業(yè)務(wù)的需要;
定義采集數(shù)據(jù)的每個數(shù)據(jù)元的可接受值域范圍;
確保數(shù)據(jù)采集工具、采集方法、采集流程已通過驗證。
(2)數(shù)據(jù)存儲
在數(shù)據(jù)存儲階段,可采用以下質(zhì)量控制策略:
選擇適當(dāng)?shù)臄?shù)據(jù)庫系統(tǒng),設(shè)計合理的數(shù)據(jù)表;
將數(shù)據(jù)以適當(dāng)?shù)念w粒度進(jìn)行存儲;
建立適當(dāng)?shù)臄?shù)據(jù)保留時間表;
建立適當(dāng)?shù)臄?shù)據(jù)所有權(quán)和查詢權(quán)限;
明確訪問和查詢數(shù)據(jù)的準(zhǔn)則和方法。
(3)數(shù)據(jù)傳輸
在數(shù)據(jù)傳輸階段,可采用以下質(zhì)量控制策略:
明確數(shù)據(jù)傳輸邊界或數(shù)據(jù)傳輸限制;
保證數(shù)據(jù)傳輸?shù)募皶r性、完整性、安全性;
保證數(shù)據(jù)傳輸過程的可靠性,確保傳輸過程數(shù)據(jù)不會被篡改;
明確數(shù)據(jù)傳輸技術(shù)和工具對數(shù)據(jù)質(zhì)量的影響。
(4)數(shù)據(jù)處理
在數(shù)據(jù)處理階段,可采用以下質(zhì)量控制策略:
合理處理數(shù)據(jù),確保數(shù)據(jù)處理符合業(yè)務(wù)目標(biāo);
重復(fù)值的處理;
缺失值的處理;
異常值的處理;
不一致數(shù)據(jù)的處理。
(5)數(shù)據(jù)分析
確保數(shù)據(jù)分析的算法、公式和分析系統(tǒng)有效且準(zhǔn)確;
確保要分析的數(shù)據(jù)完整且有效;
在可重現(xiàn)的情況下分析數(shù)據(jù);
基于適當(dāng)?shù)念w粒度分析數(shù)據(jù);
顯示適當(dāng)?shù)臄?shù)據(jù)比較和關(guān)系。
6.2.3 事中控制的相關(guān)策略
(1)質(zhì)量規(guī)則的持續(xù)更新
數(shù)據(jù)質(zhì)量管理不是一次性的工作,而是一個不間斷的過程,企業(yè)需要定期檢查數(shù)據(jù)質(zhì)量規(guī)則對業(yè)務(wù)的滿足度,并不斷改進(jìn)它們。另外,企業(yè)和業(yè)務(wù)環(huán)境在不斷變化,因此企業(yè)需要提出新的數(shù)據(jù)質(zhì)量規(guī)則來應(yīng)對這些變化。
(2)數(shù)據(jù)質(zhì)量的持續(xù)監(jiān)控
DQAF給出了一種數(shù)據(jù)質(zhì)量的持續(xù)監(jiān)控方法,叫作聯(lián)機(jī)測量,它強(qiáng)調(diào)利用數(shù)據(jù)質(zhì)量管理工具的自動化功能,將定義好的數(shù)據(jù)質(zhì)量規(guī)則作用于數(shù)據(jù)測量對象(數(shù)據(jù)源),實現(xiàn)對數(shù)據(jù)質(zhì)量有效性的持續(xù)性檢查,以便發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問題和確定改進(jìn)方案。
(3)使用先進(jìn)的技術(shù)
我們可以利用人工智能技術(shù)來進(jìn)行數(shù)據(jù)質(zhì)量監(jiān)控、評價和改善,以應(yīng)對不斷增加的數(shù)據(jù)和日趨復(fù)雜的數(shù)據(jù)環(huán)境等的挑戰(zhàn)。人工智能技術(shù)在數(shù)據(jù)質(zhì)量管理中的應(yīng)用包括:

更好地識別和解析企業(yè)的數(shù)據(jù);
更好地了解和量化數(shù)據(jù)質(zhì)量;
更好地進(jìn)行數(shù)據(jù)質(zhì)量問題分析;
更好地進(jìn)行數(shù)據(jù)匹配和刪除重復(fù)數(shù)據(jù);
更好地豐富企業(yè)的數(shù)據(jù)。
(4)數(shù)據(jù)質(zhì)量預(yù)警機(jī)制
數(shù)據(jù)質(zhì)量預(yù)警機(jī)制用于對在數(shù)據(jù)質(zhì)量監(jiān)控過程中發(fā)現(xiàn)的數(shù)據(jù)質(zhì)量問題進(jìn)行預(yù)警和提醒。例如,通過微信、短信的形式提醒數(shù)據(jù)管理員發(fā)生了數(shù)據(jù)質(zhì)量問題,通過電子郵件的形式向數(shù)據(jù)管理員發(fā)送數(shù)據(jù)質(zhì)量問題列表等,以便相關(guān)人員及時采取改善或補(bǔ)救措施。
(5)數(shù)據(jù)質(zhì)量報告 數(shù)據(jù)質(zhì)量報告有利于清晰地顯示數(shù)據(jù)質(zhì)量測量和評估情況,方便相關(guān)數(shù)據(jù)質(zhì)量責(zé)任人分析數(shù)據(jù)問題,制定處理方案。數(shù)據(jù)質(zhì)量報告有兩種常見的形式:一種是以儀表板的形式統(tǒng)計數(shù)據(jù)質(zhì)量問題,顯示數(shù)據(jù)質(zhì)量KPI,幫助數(shù)據(jù)管理者分析和定位數(shù)據(jù)質(zhì)量問題;另一種是生成數(shù)據(jù)質(zhì)量問題日志,該日志記錄了已知的數(shù)據(jù)問題,能夠幫助企業(yè)預(yù)防數(shù)據(jù)質(zhì)量問題和執(zhí)行數(shù)據(jù)清理活動。
6.3 事后補(bǔ)救
是不是做好了事前預(yù)防和事中控制就不會再有數(shù)據(jù)質(zhì)量問題發(fā)生了?答案顯然是否定的。事實上,不論我們采取了多少預(yù)防措施、進(jìn)行了多么嚴(yán)格的過程控制,數(shù)據(jù)問題總是還有“漏網(wǎng)之魚”。你會發(fā)現(xiàn)只要是人為干預(yù)的過程,總會存在數(shù)據(jù)質(zhì)量問題,而即使拋開人為因素,數(shù)據(jù)質(zhì)量問題也無法避免。為了盡可能減少數(shù)據(jù)質(zhì)量問題,減輕數(shù)據(jù)質(zhì)量問題對業(yè)務(wù)的影響,我們需要及時發(fā)現(xiàn)它并采取相應(yīng)的補(bǔ)救措施。

6.3.1 定期質(zhì)量監(jiān)控
定期質(zhì)量監(jiān)控也叫定期數(shù)據(jù)測量,是對某些非關(guān)鍵性數(shù)據(jù)和不適合持續(xù)測量的數(shù)據(jù)定期重新評估,為數(shù)據(jù)所處狀態(tài)符合預(yù)期提供一定程度的保證。定期監(jiān)控數(shù)據(jù)的狀況,為數(shù)據(jù)在某種程度上符合預(yù)期提供保障,發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問題及數(shù)據(jù)質(zhì)量問題的變化,從而制定有效的改進(jìn)措施。
定期質(zhì)量監(jiān)控就像人們定期體檢一樣,定期檢查身體的健康狀態(tài),當(dāng)某次體檢數(shù)據(jù)發(fā)生明顯變化時,醫(yī)生就會知道有哪些數(shù)據(jù)出現(xiàn)異常,并根據(jù)這些異常數(shù)據(jù)采取適當(dāng)?shù)闹委煷胧?。對于?shù)據(jù)也一樣,需要定期對企業(yè)數(shù)據(jù)治理進(jìn)行全面“體檢”,找到問題的“病因”,以實現(xiàn)數(shù)據(jù)質(zhì)量的持續(xù)提升。

6.3.2 數(shù)據(jù)問題補(bǔ)救
盡管數(shù)據(jù)質(zhì)量控制可以在很大程度上起到控制和預(yù)防不良數(shù)據(jù)發(fā)生的作用,但事實上,再嚴(yán)格的質(zhì)量控制也無法做到100%的數(shù)據(jù)問題防治,甚至過于嚴(yán)格的數(shù)據(jù)質(zhì)量控制還會引起其他數(shù)據(jù)問題。因此,企業(yè)需要不時進(jìn)行主動的數(shù)據(jù)清理和補(bǔ)救措施,以糾正現(xiàn)有的數(shù)據(jù)問題。
(1)清理重復(fù)數(shù)據(jù)
對經(jīng)過數(shù)據(jù)質(zhì)量檢核檢查出的重復(fù)數(shù)據(jù)進(jìn)行人工或自動處理,處理的方法有刪除或合并。例如:對于兩條完全相同的重復(fù)記錄,刪除其中一條;如果重復(fù)的記錄不完全相同,則將兩條記錄合并為一條,或者只保留相對完整、準(zhǔn)確的那條。
(2)清理派生數(shù)據(jù)
派生數(shù)據(jù)是由其他數(shù)據(jù)派生出來的數(shù)據(jù),例如:“利潤率”就是在“利潤”的基礎(chǔ)上計算得出的,它就是派生數(shù)據(jù)。而一般情況下,存儲派生出的數(shù)據(jù)是多余的,不僅會增加存儲和維護(hù)成本,而且會增大數(shù)據(jù)出錯的風(fēng)險。如果由于某種原因,利潤率的計算方式發(fā)生了變化,那么必須重新計算該值,這就會增加發(fā)生錯誤的機(jī)會。因此,需要對派生數(shù)據(jù)進(jìn)行清理,可以存儲其相關(guān)算法和公式,而不是結(jié)果。
(3)缺失值處理
處理缺失值的策略是對缺失值進(jìn)行插補(bǔ)修復(fù),有兩種方式:人工插補(bǔ)和自動插補(bǔ)。對于“小數(shù)據(jù)”的數(shù)據(jù)缺失值,一般采用人工插補(bǔ)的方式,例如主數(shù)據(jù)的完整性治理。而對于大數(shù)據(jù)的數(shù)據(jù)缺失值問題,一般采用自動插補(bǔ)的方式進(jìn)行修復(fù)。自動插補(bǔ)主要有三種方式:

利用上下文插值修復(fù);
采用平均值、最大值或最小值修復(fù);
采用默認(rèn)值修復(fù)。
當(dāng)然,最為有效的方法是采用相近或相似數(shù)值進(jìn)行插補(bǔ),例如利用機(jī)器學(xué)習(xí)算法找到相似值進(jìn)行插補(bǔ)修復(fù)。
(4)異常值處理
異常值處理的核心是找到異常值。異常值的檢測方法有很多,大多要用到以下機(jī)器學(xué)習(xí)技術(shù):

基于統(tǒng)計的異常檢測;
基于距離的異常檢測;
基于密度的異常檢測;
基于聚類的異常檢測。
檢測出異常值后,處理就相對簡單了,有如下處理方法:
刪除異常值;
數(shù)據(jù)轉(zhuǎn)換或聚類;
替換異常值;
分離對待
6.3.3 持續(xù)改進(jìn)優(yōu)化
數(shù)據(jù)質(zhì)量管理是個持續(xù)的良性循環(huán),不斷進(jìn)行測量、分析、探查和改進(jìn)可全面改善企業(yè)的信息質(zhì)量。通過對數(shù)據(jù)質(zhì)量管理策略的不斷優(yōu)化和改進(jìn),從對于數(shù)據(jù)問題甚至緊急的數(shù)據(jù)故障只能被動做出反應(yīng),過渡到主動預(yù)防和控制數(shù)據(jù)缺陷的發(fā)生。
247210bk-6.png

經(jīng)過數(shù)據(jù)質(zhì)量測量、數(shù)據(jù)問題根因分析以及數(shù)據(jù)質(zhì)量問題修復(fù),我們可以回過頭來評估數(shù)據(jù)模型設(shè)計是否合理,是否還有優(yōu)化和提升的空間,數(shù)據(jù)的新增、變更、采集、存儲、傳輸、處理、分析各個過程是否規(guī)范,預(yù)置的質(zhì)量規(guī)則和閾值是否合理。如果模型和流程存在不合理的地方或可優(yōu)化的空間,那么就實施這些優(yōu)化。
事后補(bǔ)救始終不是數(shù)據(jù)質(zhì)量管理的最理想方式,建議堅持以預(yù)防為主的原則開展數(shù)據(jù)質(zhì)量管理,并通過持續(xù)的數(shù)據(jù)質(zhì)量測量和探查,不斷發(fā)現(xiàn)問題,改進(jìn)方法,提升質(zhì)量。

7. 總結(jié)
數(shù)據(jù)質(zhì)量影響的不僅是信息化建設(shè)的成敗,更是影響企業(yè)業(yè)務(wù)協(xié)同、管理創(chuàng)新、決策支持的核心要素。對于數(shù)據(jù)質(zhì)量的管理,堅持“垃圾進(jìn),垃圾出”的總體思想,堅持“事前預(yù)防、事中控制、事后補(bǔ)救”的數(shù)據(jù)質(zhì)量管理策略 ,持續(xù)提升企業(yè)數(shù)據(jù)質(zhì)量水平。盡管可能沒有一種真正的萬無一失的方法來防止所有數(shù)據(jù)質(zhì)量問題,但是使數(shù)據(jù)質(zhì)量成為企業(yè)數(shù)據(jù)環(huán)境DNA的一部分將在很大程度上能夠獲得業(yè)務(wù)用戶和領(lǐng)導(dǎo)的信任。
隨著大數(shù)據(jù)的發(fā)展,企業(yè)用數(shù)需求與日俱增,解決數(shù)據(jù)質(zhì)量問題變得比以往任何時候都重要。技術(shù)的發(fā)展、業(yè)務(wù)的變化、數(shù)據(jù)的增加讓企業(yè)的數(shù)據(jù)環(huán)境日益復(fù)雜多變。因此,企業(yè)的數(shù)據(jù)質(zhì)量管理是一個持續(xù)的過程,永遠(yuǎn)也不會出現(xiàn)所謂的“最佳時機(jī)”,換句話說,企業(yè)進(jìn)行數(shù)據(jù)質(zhì)量管理的最佳時機(jī)就是現(xiàn)在!



作者: 教你學(xué)懂大數(shù)據(jù)


歡迎關(guān)注微信公眾號 :教你學(xué)懂大數(shù)據(jù)