銀行數(shù)據(jù)質(zhì)量管理實(shí)踐

來源:中國(guó)銀行總行信息科技部

作者:孫中東

現(xiàn)代商業(yè)銀行日常經(jīng)營(yíng)活動(dòng)中積累了大量數(shù)據(jù),這些數(shù)據(jù)除了支持銀行前臺(tái)業(yè)務(wù)流程運(yùn)轉(zhuǎn)之外,越來越多地被用于決策支持領(lǐng)域,風(fēng)險(xiǎn)控制、產(chǎn)品定價(jià)、績(jī)效考核等管理決策過程也都需要大量高質(zhì)量數(shù)據(jù)支持。銀行日常經(jīng)營(yíng)決策過程的背后,實(shí)質(zhì)是數(shù)據(jù)的生產(chǎn)、傳遞和利用過程。

此外,日益全面的和嚴(yán)格的監(jiān)管措施和信息披露要求,也對(duì)銀行數(shù)據(jù)提出了前所未有的挑戰(zhàn)。如果不能對(duì)這些數(shù)據(jù)進(jìn)行有效管理,其價(jià)值就得不到很好體現(xiàn),甚至?xí)o運(yùn)營(yíng)管理帶來負(fù)面作用,具體表現(xiàn)為:

一是缺乏統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn),難以建立全面、準(zhǔn)確、完整地反映企業(yè)運(yùn)營(yíng)狀況的單一數(shù)據(jù)視圖,難以做到數(shù)據(jù)的邏輯整合而不僅僅是物理集中;
二是缺乏規(guī)范的數(shù)據(jù)質(zhì)量治理流程和考核機(jī)制,不能及時(shí)發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問題,或缺乏有效解決途徑;
三是對(duì)數(shù)據(jù)采集、分布、流轉(zhuǎn)及應(yīng)用的規(guī)劃存在不合理現(xiàn)象,數(shù)據(jù)需求、數(shù)據(jù)質(zhì)量、數(shù)據(jù)應(yīng)用等問題的管理和解決分散在不同業(yè)務(wù)和技術(shù)部門,沒有一個(gè)清晰的協(xié)調(diào)機(jī)制和統(tǒng)一的報(bào)告渠道,業(yè)務(wù)不能及時(shí)、按需獲得數(shù)據(jù)支持;
四是缺乏有效的數(shù)據(jù)安全管理機(jī)制,對(duì)敏感信息的訪問缺乏有效控制,對(duì)銀行形成潛在的聲譽(yù)和法律風(fēng)險(xiǎn)等。為使這些數(shù)據(jù)“包袱”變成“金礦”,數(shù)據(jù)治理體系的構(gòu)建就變得尤為重要和迫切。

01 數(shù)據(jù)治理體系簡(jiǎn)介

數(shù)據(jù)治理是為滿足企業(yè)內(nèi)部信息需求,提升企業(yè)信息服務(wù)水準(zhǔn)而制定的相關(guān)流程、政策、標(biāo)準(zhǔn)以及相關(guān)技術(shù)手段,用于保證信息的可用性、可獲取性、高質(zhì)量、一致性以及安全性。數(shù)據(jù)治理體系建設(shè)的目的,是建立數(shù)據(jù)擁有者、使用者、數(shù)據(jù)以及支撐系統(tǒng)之間的和諧互補(bǔ)關(guān)系,從全企業(yè)視角協(xié)調(diào)、統(tǒng)領(lǐng)各個(gè)層面的數(shù)據(jù)管理工作,確保內(nèi)部各類人員能夠得到及時(shí)、準(zhǔn)確的數(shù)據(jù)支持和服務(wù)。通常認(rèn)為,數(shù)據(jù)治理至少應(yīng)當(dāng)涵蓋如下功能域:數(shù)據(jù)質(zhì)量管理、元數(shù)據(jù)管理、數(shù)據(jù)標(biāo)準(zhǔn)管理數(shù)據(jù)安全管理和主數(shù)據(jù)管理,現(xiàn)對(duì)上述功能域說明如下:

1.數(shù)據(jù)質(zhì)量管理

對(duì)支持業(yè)務(wù)需求的數(shù)據(jù)進(jìn)行全面質(zhì)量管理,通過數(shù)據(jù)質(zhì)量相關(guān)管理辦法、組織、流程、評(píng)價(jià)考核規(guī)則的制定,及時(shí)發(fā)現(xiàn)并解決數(shù)據(jù)質(zhì)量問題,提升數(shù)據(jù)的完整性、及時(shí)性、準(zhǔn)確性及一致性,提升業(yè)務(wù)價(jià)值。

2.元數(shù)據(jù)管理

元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù),即對(duì)數(shù)據(jù)的描述信息。根據(jù)其屬性的不同,元數(shù)據(jù)可分為技術(shù)元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù)。元數(shù)據(jù)管理是元數(shù)據(jù)的定義、收集、管理和發(fā)布的方法、工具及流程的集合,通過完成對(duì)相關(guān)業(yè)務(wù)元數(shù)據(jù)及技術(shù)元數(shù)據(jù)的集成及應(yīng)用,提供數(shù)據(jù)路徑、數(shù)據(jù)歸屬信息,并對(duì)業(yè)務(wù)術(shù)語、文檔進(jìn)行集中管理,借助變更報(bào)告、影響分析以及業(yè)務(wù)術(shù)語管理等應(yīng)用, 以此保證數(shù)據(jù)的完整性、控制數(shù)據(jù)質(zhì)量、減少業(yè)務(wù)術(shù)語歧義和建立業(yè)務(wù)人員之間、技術(shù)人員之間,以及雙方的溝通平臺(tái)。

3.數(shù)據(jù)標(biāo)準(zhǔn)管理

通過建立一整套數(shù)據(jù)規(guī)范、管控流程和技術(shù)工具來確保銀行各種重要信息,包括產(chǎn)品、客戶、機(jī)構(gòu)、賬戶等信息在全行內(nèi)外使用和交換的一致和準(zhǔn)確。數(shù)據(jù)標(biāo)準(zhǔn)可分為技術(shù)標(biāo)準(zhǔn)和業(yè)務(wù)標(biāo)準(zhǔn)。

4.數(shù)據(jù)安全管理

通過建立對(duì)數(shù)據(jù)及相關(guān)信息系統(tǒng)進(jìn)行保護(hù)的一系列措施, 確保數(shù)據(jù)免遭未經(jīng)授權(quán)的訪問、使用、修改或刪除,保證數(shù)據(jù)完整性、保密性和可用性,具體可分為管理和技術(shù)兩大類措施。

5.主數(shù)據(jù)管理

主數(shù)據(jù)指描述核心業(yè)務(wù)實(shí)體的數(shù)據(jù),如客戶、機(jī)構(gòu)、員工、產(chǎn)品等。這些數(shù)據(jù)變化相對(duì)緩慢并通常在企業(yè)內(nèi)跨業(yè)務(wù)重復(fù)使用。主數(shù)據(jù)管理適用于管理、協(xié)調(diào)、監(jiān)控與企業(yè)主要業(yè)務(wù)實(shí)體相關(guān)聯(lián)的主數(shù)據(jù)的一系列規(guī)則、技術(shù)、應(yīng)用、策略和程序。

02 數(shù)據(jù)質(zhì)量管理簡(jiǎn)介

業(yè)界普遍認(rèn)可的數(shù)據(jù)質(zhì)量定義為數(shù)據(jù)對(duì)其期望目的的適合度,即數(shù)據(jù)質(zhì)量管理生命周期及其相關(guān)的數(shù)據(jù)質(zhì)量管理流程,都要為確保數(shù)據(jù)滿足其自身預(yù)期目標(biāo)提供相應(yīng)的方法和手段。

數(shù)據(jù)質(zhì)量管理基礎(chǔ)和問題分類
下列要素是進(jìn)行數(shù)據(jù)質(zhì)量管理的基礎(chǔ):             

1.數(shù)據(jù)質(zhì)量的好壞是由用戶以及數(shù)據(jù)使用價(jià)值所決定的。
2.數(shù)據(jù)質(zhì)量的好壞代表著數(shù)據(jù)在數(shù)據(jù)知識(shí)應(yīng)用中、數(shù)據(jù)所存在的系統(tǒng)中以及數(shù)據(jù)使用過程中被應(yīng)用或者有價(jià)值的程度。
3.只有當(dāng)數(shù)據(jù)被下游過程(系統(tǒng)或用戶)所接收并使用時(shí),數(shù)據(jù)質(zhì)量問題的研討才有意義。
4.數(shù)據(jù)是持續(xù)變更的,數(shù)據(jù)質(zhì)量管理是一個(gè)持續(xù)過程而不是一次性活動(dòng)。

銀行關(guān)注的常見數(shù)據(jù)質(zhì)量問題可以歸成如下7類:

1.定義缺失,指缺少關(guān)鍵業(yè)務(wù)元素定義,導(dǎo)致對(duì)同一字段的理解偏差。例如,

什么是“一個(gè)客戶”,不同業(yè)務(wù)有不同理解,通常風(fēng)險(xiǎn)應(yīng)用將組織機(jī)構(gòu)號(hào)作為對(duì)公客戶的“身份證”,一個(gè)組織機(jī)構(gòu)號(hào)代表一個(gè)客戶;而核心系統(tǒng)對(duì)客戶號(hào)的分配較為隨意,允許一個(gè)組織機(jī)構(gòu)號(hào)下存在多個(gè)客戶號(hào)。

2.數(shù)據(jù)異常,指系統(tǒng)的個(gè)別字段出現(xiàn)了異常信息,包括取值錯(cuò)誤,格式錯(cuò)誤、多余字符、亂碼等。
3.信息缺失或不準(zhǔn)確,指在系統(tǒng)表中已經(jīng)設(shè)計(jì)了某些字段,但在使用過程中, 很多記錄卻沒有收集這些字段的信息,或存在信息收集不準(zhǔn)確、信息重復(fù)登記等情況。信息缺失或不準(zhǔn)確通常在客戶信息方面最為嚴(yán)重。

4.系統(tǒng)之間數(shù)據(jù)不一致,主要體現(xiàn)在兩個(gè)方面:
(1)系統(tǒng)間數(shù)據(jù)維護(hù)不一致。為了滿足各個(gè)系統(tǒng)內(nèi)部邏輯、提高訪問效率和減少數(shù)據(jù)傳輸,相同信息可能在不同系統(tǒng)進(jìn)行冗余存放。但冗余存放的數(shù)據(jù)如果不進(jìn)行同步或及時(shí)的數(shù)據(jù)維護(hù),則必會(huì)導(dǎo)致這些數(shù)據(jù)的不一致。例如,銀行通常存在核心系統(tǒng)與信貸系統(tǒng)數(shù)據(jù)不一致的問題。

(2)系統(tǒng)之間數(shù)據(jù)同步時(shí)效性造成的不一致。典型案例如下:由于某些銀行的貸記卡系統(tǒng)是外包系統(tǒng),因此總賬系統(tǒng)在 T+1 日才能取到貸記卡 T 日的數(shù)據(jù),但是其他系統(tǒng)的科目余額缺失 T+1 日的數(shù)據(jù),于是此種同步時(shí)效性的差異就導(dǎo)致了系統(tǒng)之間數(shù)據(jù)不一致。

5.數(shù)據(jù)完整性問題。數(shù)據(jù)完整性問題主要體現(xiàn)在兩個(gè)方面:(1)參照完整性,是指一個(gè)表 A的外鍵不包含無效的鍵值,例如,借據(jù)表中記錄了合同號(hào),但是在合同表中無法找到相關(guān)記錄;(2)數(shù)據(jù)含義沖突,如某些賬戶,從賬戶屬性、存期等字段看,應(yīng)是通知存款產(chǎn)品,但從科目看,又是普通定期產(chǎn)品。

6.數(shù)據(jù)生命周期問題。銀行中的關(guān)鍵數(shù)據(jù),例如,賬戶、客戶、產(chǎn)品信息等, 都有若干日期字段記錄其生命周期,這些日期字段包括創(chuàng)建/開戶日期、關(guān)閉/

銷戶日期、最后交易日期和最后修改日期等,但是在業(yè)務(wù)系統(tǒng)中往往存在修改了記錄狀態(tài)卻并未同步更新相關(guān)日期字段的情況。此外,還有一個(gè)違反合理數(shù)據(jù)生命周期的常見做法,就是直接在物理上刪除記錄。

7.代碼問題。包括三個(gè)與代碼相關(guān)的問題:

(1)代碼不統(tǒng)一問題,即不同應(yīng)用之間相同用途代碼的編碼不一致;
(2)未代碼化問題,即常見情況使用文字存儲(chǔ),而非將信息代碼化,很多時(shí)候會(huì)發(fā)現(xiàn)信息存儲(chǔ)的不少,但卻不便于分析使用。
(3)意外代碼,即實(shí)際數(shù)據(jù)中出現(xiàn)了未定義的代碼值。

03 數(shù)據(jù)質(zhì)量管理方法論

圖 1 描述了權(quán)威人士普遍認(rèn)可的數(shù)據(jù)質(zhì)量管理方法論,共分六步。



圖1  數(shù)據(jù)質(zhì)量提升步驟圖

第一步:定義及驗(yàn)證

首先,從技術(shù)和業(yè)務(wù)兩個(gè)層面對(duì)數(shù)據(jù)應(yīng)當(dāng)滿足的質(zhì)量目標(biāo)進(jìn)行定義。表1列出了一系列數(shù)據(jù)質(zhì)量度量標(biāo)準(zhǔn),但最終的定義應(yīng)當(dāng)以更規(guī)范的形式進(jìn)行描述。例如,屬性 X的缺失率不超過2%。其次,對(duì)于派生數(shù)據(jù),其源數(shù)據(jù)和轉(zhuǎn)換的規(guī)則必須詳細(xì)說明。最后,上面描述的定義和規(guī)則將作為數(shù)據(jù)質(zhì)量評(píng)估計(jì)劃的輸入源。數(shù)據(jù)質(zhì)量評(píng)估計(jì)劃主要用來驗(yàn)證定義和規(guī)則的正確性,并且這個(gè)計(jì)劃將詳細(xì)描述數(shù)據(jù)必須滿足的、適合它預(yù)期用途的屬性,即它定義了數(shù)據(jù)質(zhì)量。這個(gè)計(jì)劃還將指導(dǎo)初始的數(shù)據(jù)度量,通常也成為數(shù)據(jù)剖析。

表1 數(shù)據(jù)質(zhì)量度量標(biāo)準(zhǔn)

Accuracy 正確性

Completeness 完整性

Consistency  一致性

Continuity 連續(xù)性

Precedence 先后順序

Precision 精確度

Granularity 數(shù)據(jù)粒度

Currency 當(dāng)前性

Duration  數(shù)據(jù)時(shí)間跨度

Retention 數(shù)據(jù)保存周期

Identity 唯一性

Reference 參照完整性

Cardinality 數(shù)據(jù)對(duì)應(yīng)關(guān)系

Inheritance 繼承關(guān)系

Value  Set 數(shù)值集合

Relationship 依賴關(guān)系

第二步:影響分析與共性分析

完成數(shù)據(jù)質(zhì)量目標(biāo)定義后,需要評(píng)估一個(gè)特定的數(shù)據(jù)質(zhì)量問題在預(yù)期的數(shù)據(jù)使用適合性方面帶來的影響,并根據(jù)影響分析結(jié)果可以確定數(shù)據(jù)質(zhì)量問題的重要性與優(yōu)先級(jí)別。

所謂共性分析就是分析錯(cuò)誤具有的共性,我們期望一次可以將許多錯(cuò)誤歸結(jié)到某類共同原因。這個(gè)分析將為下一步追蹤根本原因做好準(zhǔn)備。

第三步:追蹤根本原因

圖 2 所示魚骨圖是一個(gè)眾所周知的用于鑒別數(shù)據(jù)質(zhì)量背后根本原因的工具,它反映了需要達(dá)到的和實(shí)際的數(shù)據(jù)質(zhì)量之間的差距原因,通常是信息、流程、技術(shù)、人員等因素所導(dǎo)致。

第四步:預(yù)防/修復(fù)數(shù)據(jù)質(zhì)量問題

圖 3 描述了在追蹤數(shù)據(jù)質(zhì)量問題的根本原因時(shí)可用到的選擇。每一個(gè)選擇都有相關(guān)的優(yōu)點(diǎn)和弱點(diǎn)。
1.導(dǎo)致數(shù)據(jù)質(zhì)量問題的根本原因,最常見的有人員、流程、業(yè)務(wù)系統(tǒng)前端、業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫、數(shù)據(jù)抽取和加載過程等方面處理不當(dāng),這些因素都有可能產(chǎn)生數(shù)據(jù)質(zhì)量問題。對(duì)于圖3前三項(xiàng)(人員、流程、業(yè)務(wù)系統(tǒng)前端),重點(diǎn)在于預(yù)防,對(duì)于后三項(xiàng)(業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫,抽取、加載),則通常通過修復(fù)的手段來解決。
2.每類數(shù)據(jù)質(zhì)量問題的預(yù)防/修復(fù)都有有利和不利的一面,比如,由于人員產(chǎn)生的質(zhì)量問題,有利方面是可以再源頭預(yù)防,不利方面在于人員往往會(huì)疏于管理、容易遺忘以及不同人員的差異性、專注點(diǎn)不同,這些都會(huì)不可避免地產(chǎn)生一定的數(shù)據(jù)質(zhì)量問題。



圖2 數(shù)據(jù)質(zhì)量根本原因圖






3.涉及的數(shù)據(jù)量。通常數(shù)據(jù)質(zhì)量問題需要修復(fù)的數(shù)據(jù)量有大致規(guī)律,如人員、流程、前端應(yīng)用產(chǎn)生的質(zhì)量問題需要修復(fù)的數(shù)據(jù)量往往不大,而數(shù)據(jù)庫處理、數(shù)據(jù)抽取和加載等后臺(tái)環(huán)節(jié)導(dǎo)致的數(shù)據(jù)質(zhì)量問題通常設(shè)計(jì)的數(shù)據(jù)量較大。對(duì)于已經(jīng)發(fā)生的數(shù)據(jù)質(zhì)量問題,只能通過修復(fù)措施解決,但是從長(zhǎng)遠(yuǎn)來看,重視預(yù)防措施, 在源頭控制錯(cuò)誤的產(chǎn)生更為重要。



圖 3 預(yù)防/修復(fù)數(shù)據(jù)質(zhì)量問題圖

第五步:趨勢(shì)監(jiān)控

一個(gè)已知的數(shù)據(jù)質(zhì)量問題被修復(fù)后并不意味著這個(gè)特定問題就被永遠(yuǎn)解決了。如果沒有有效地預(yù)防措施,錯(cuò)誤仍有可能再現(xiàn)。因此,對(duì)重要數(shù)據(jù)質(zhì)量問題應(yīng)當(dāng)持續(xù)監(jiān)控。圖 4 所示控制圖經(jīng)常被用來做質(zhì)量問題監(jiān)控,當(dāng)錯(cuò)誤的個(gè)數(shù)在一定范圍之內(nèi)浮動(dòng)時(shí),質(zhì)量問題被認(rèn)為處于可控狀態(tài)。











圖 4 數(shù)據(jù)質(zhì)量趨勢(shì)監(jiān)控圖

第六步:識(shí)別和研究偏差

監(jiān)控流程來識(shí)別問題。例如,當(dāng)一個(gè)已知數(shù)據(jù)的質(zhì)量超過了允許的控制范圍, 流程將需要從該分支返回到第三步再一次識(shí)別根本原因。












圖 5 識(shí)別和研究偏差圖

04 數(shù)據(jù)質(zhì)量問題特征分析

根據(jù)數(shù)據(jù)質(zhì)量定義,數(shù)據(jù)的不同使用目的會(huì)導(dǎo)致不同的數(shù)據(jù)質(zhì)量要求,例如, 業(yè)務(wù)系統(tǒng)對(duì)數(shù)據(jù)的使用目的主要是為了保證業(yè)務(wù)流程的正常運(yùn)轉(zhuǎn)和滿足一些簡(jiǎn)單的統(tǒng)計(jì)功能,因此只要業(yè)務(wù)流程和統(tǒng)計(jì)正常,就可以認(rèn)為數(shù)據(jù)質(zhì)量滿足要求;而分析型系統(tǒng)對(duì)數(shù)據(jù)的使用目的則多種多樣,而且涵蓋企業(yè)運(yùn)營(yíng)的方方面面,那么滿足業(yè)務(wù)流程正常運(yùn)轉(zhuǎn)的需要并不一定就能保證滿足分析的需求,因此分析型應(yīng)用的需求是決定數(shù)據(jù)質(zhì)量管理目標(biāo)的主要因素。
在這一前提下,對(duì)企業(yè)內(nèi)部數(shù)據(jù)流轉(zhuǎn)過程各環(huán)節(jié)中呈現(xiàn)出來的數(shù)據(jù)質(zhì)量問題特性作如下分析,如圖6所示,數(shù)據(jù)流轉(zhuǎn)過程被分成三個(gè)階段(環(huán)節(jié)):
1.數(shù)據(jù)生產(chǎn)環(huán)節(jié):企業(yè)內(nèi)部的原始數(shù)據(jù),絕大部分都產(chǎn)生自業(yè)務(wù)源系統(tǒng),很少量的增值數(shù)據(jù)(Value-addedata)產(chǎn)生于分析型系統(tǒng)。

2.數(shù)據(jù)集成環(huán)節(jié):在基礎(chǔ)數(shù)據(jù)平臺(tái)類系統(tǒng)(ODS/數(shù)據(jù)倉庫和數(shù)據(jù)集市)中,集成來自不同源系統(tǒng)的數(shù)據(jù),并按照數(shù)據(jù)模型整合。

3.數(shù)據(jù)使用環(huán)節(jié):由各類分析型應(yīng)用組成,也包括隨機(jī)業(yè)務(wù)查詢、數(shù)據(jù)分析、數(shù)據(jù)挖掘等信息訪問手段。

從圖6中可以看到,數(shù)據(jù)質(zhì)量問題的產(chǎn)生主要在于數(shù)據(jù)產(chǎn)生環(huán)節(jié),其次在于數(shù)據(jù)集成環(huán)節(jié)的數(shù)據(jù)加工過程,而在數(shù)據(jù)使用環(huán)節(jié),由于原則上不再對(duì)數(shù)據(jù)作修改,因此基本上不產(chǎn)生數(shù)據(jù)質(zhì)量問題。



圖 6 數(shù)據(jù)質(zhì)量問題分析圖

數(shù)據(jù)質(zhì)量問題的發(fā)現(xiàn)則不同,基本呈現(xiàn)出相反特征:一是業(yè)務(wù)源系統(tǒng)雖然是數(shù)據(jù)的主要產(chǎn)生環(huán)節(jié),但是通常只能發(fā)現(xiàn)業(yè)務(wù)流程相關(guān)的數(shù)據(jù)質(zhì)量問題,而且僅限于本系統(tǒng)內(nèi)部;二是數(shù)據(jù)集成環(huán)節(jié)由于是企業(yè)內(nèi)部數(shù)據(jù)的一個(gè)最主要會(huì)聚點(diǎn),因此通常也是數(shù)據(jù)質(zhì)量問題暴露最多的環(huán)節(jié);三是數(shù)據(jù)使用環(huán)節(jié)是數(shù)據(jù)質(zhì)量問題頻繁暴露的另一個(gè)環(huán)節(jié),主要是因?yàn)閷?duì)數(shù)據(jù)的使用決定了數(shù)據(jù)質(zhì)量問題的定義,所以很多質(zhì)量問題都是在使用時(shí)被首次發(fā)現(xiàn)。

 05 在不同流轉(zhuǎn)環(huán)節(jié)關(guān)注的數(shù)據(jù)質(zhì)量

基于數(shù)據(jù)質(zhì)量管理的關(guān)鍵環(huán)節(jié)和質(zhì)量問題特性,再結(jié)合業(yè)界事實(shí)數(shù)據(jù)質(zhì)量管理的最佳實(shí)踐,建議在不同流轉(zhuǎn)環(huán)節(jié)側(cè)重完成的功能點(diǎn)實(shí)現(xiàn)應(yīng)如下:

1.數(shù)據(jù)產(chǎn)生環(huán)節(jié)。

修正——數(shù)據(jù)質(zhì)量問題必須在源頭得到修正,這是數(shù)據(jù)質(zhì)量管理的一項(xiàng)基本原則。
預(yù)防——相對(duì)于修正,預(yù)防的意義更大,主要原因在于可以防止產(chǎn)生新的數(shù)據(jù)質(zhì)量問題。
定義——由于數(shù)據(jù)質(zhì)量問題的定義主要取決于使用目的原則,因此數(shù)據(jù)質(zhì)量問題的定義主要應(yīng)當(dāng)結(jié)合數(shù)據(jù)使用環(huán)節(jié)來發(fā)起,但事實(shí)上常常都是基于源系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)來進(jìn)行定義。

2.數(shù)據(jù)集成環(huán)節(jié)。

檢查——技術(shù)數(shù)據(jù)平臺(tái)類系統(tǒng)作為銀行數(shù)據(jù)的主要會(huì)聚點(diǎn),在此環(huán)節(jié)進(jìn)行數(shù)據(jù)質(zhì)量問題檢查的效用最高。
報(bào)告——對(duì)于數(shù)據(jù)質(zhì)量檢查結(jié)果,應(yīng)當(dāng)以報(bào)告形式展開,并通過一定的機(jī)制(自動(dòng)工作流程或人工流程)通知相關(guān)的數(shù)據(jù)質(zhì)量問題責(zé)任人,如業(yè)務(wù)源系統(tǒng)項(xiàng)目組、業(yè)務(wù)部門、數(shù)據(jù)倉庫或應(yīng)用項(xiàng)目組等。
跟蹤——由于來自業(yè)務(wù)源系統(tǒng)的數(shù)據(jù)每天都會(huì)加載到基礎(chǔ)數(shù)據(jù)平臺(tái)類系統(tǒng)中,因此,基礎(chǔ)數(shù)據(jù)平臺(tái)類系統(tǒng)應(yīng)當(dāng)被利用來對(duì)數(shù)據(jù)質(zhì)量問題的解決進(jìn)行跟蹤,并將跟蹤結(jié)果作為提升數(shù)據(jù)質(zhì)量問題治理成效的一個(gè)依據(jù)。

3.數(shù)據(jù)使用環(huán)節(jié)。

定義——如前所述,在數(shù)據(jù)使用環(huán)節(jié)就根據(jù)數(shù)據(jù)的使用目標(biāo)來定義數(shù)據(jù)應(yīng)當(dāng)滿足的質(zhì)量標(biāo)準(zhǔn),并作為日后上下游系統(tǒng)之間服務(wù)水平協(xié)議(Service LevelAgreement,SLA)的輸入接口。
評(píng)估——作為數(shù)據(jù)的最終使用者,在使用環(huán)節(jié)應(yīng)當(dāng)對(duì)數(shù)據(jù)質(zhì)量治理的成效進(jìn)行評(píng)估,并作為下一階段設(shè)定數(shù)據(jù)質(zhì)量管理目標(biāo)的依據(jù)之一。

06 數(shù)據(jù)質(zhì)量管理流程的關(guān)鍵點(diǎn)

數(shù)據(jù)質(zhì)量管理流程應(yīng)當(dāng)涵蓋從“數(shù)據(jù)產(chǎn)生”到“數(shù)據(jù)集成”再到“數(shù)據(jù)使用”在內(nèi)的全過程。為了在銀行全行范圍內(nèi)進(jìn)行有效的數(shù)據(jù)質(zhì)量管理,數(shù)據(jù)質(zhì)量管理的不同功能點(diǎn)應(yīng)恰當(dāng)分布在個(gè)流程的相應(yīng)環(huán)節(jié),在基礎(chǔ)數(shù)據(jù)平臺(tái)類系統(tǒng)上構(gòu)建數(shù)據(jù)質(zhì)量管理系統(tǒng),并將源系統(tǒng)、相關(guān)應(yīng)用以及相關(guān)科技和業(yè)務(wù)用戶都納入數(shù)據(jù)質(zhì)量問題的發(fā)現(xiàn)——修正——跟蹤——評(píng)估的閉環(huán)流程當(dāng)中,如此才是實(shí)施數(shù)據(jù)質(zhì)量管理的最佳選擇。

此外,數(shù)據(jù)質(zhì)量管理成敗的關(guān)鍵在于合理有效的組織架構(gòu)和流程,而不是管理系統(tǒng)自身,因此應(yīng)當(dāng)更為重視數(shù)據(jù)質(zhì)量管理配套的組織架構(gòu)和管理流程建設(shè)。

在構(gòu)建數(shù)據(jù)質(zhì)量管理體系時(shí),以下關(guān)鍵因素應(yīng)當(dāng)考慮:跨部門以上主管領(lǐng)導(dǎo)的重視和牽頭;負(fù)責(zé)解決數(shù)據(jù)質(zhì)量問題的專門和專業(yè)組織;負(fù)責(zé)解決數(shù)據(jù)質(zhì)量問題的統(tǒng)一和專業(yè)流程;負(fù)責(zé)解決數(shù)據(jù)質(zhì)量問題的統(tǒng)一平臺(tái);負(fù)責(zé)偵測(cè)數(shù)據(jù)質(zhì)量問題的專業(yè)工具。

 07 數(shù)據(jù)質(zhì)量管理與數(shù)據(jù)治理體系的有機(jī)結(jié)合

數(shù)據(jù)質(zhì)量管理應(yīng)當(dāng)與整個(gè)企業(yè)級(jí)的數(shù)據(jù)治理體系有機(jī)結(jié)合,圖7 簡(jiǎn)要說明了這些治理體系各主要組件之間的關(guān)系。

圖 7 反映的數(shù)據(jù)質(zhì)量管理相關(guān)治理組件的關(guān)系如下:



圖 7 數(shù)據(jù)治理主要組件之間的關(guān)系圖

1.數(shù)據(jù)標(biāo)準(zhǔn)是數(shù)據(jù)質(zhì)量管理進(jìn)行質(zhì)量檢查的規(guī)則,因此數(shù)據(jù)與標(biāo)準(zhǔn)不相符,就是一個(gè)典型的數(shù)據(jù)質(zhì)量問題,通過部署數(shù)據(jù)質(zhì)量管理系統(tǒng),可以對(duì)數(shù)據(jù)標(biāo)準(zhǔn)的落地實(shí)施提供有效的監(jiān)控、檢驗(yàn)和督促手段。

2.元數(shù)據(jù)管理系統(tǒng)可以作為數(shù)據(jù)質(zhì)量管理的一個(gè)輸入端,輔助數(shù)據(jù)質(zhì)量檢查 腳本的自動(dòng)生成,而數(shù)據(jù)質(zhì)量管理系統(tǒng)中存儲(chǔ)的檢查規(guī)則等信息又是一項(xiàng)元數(shù)據(jù), 應(yīng)當(dāng)被元數(shù)據(jù)管理系統(tǒng)所采集。

3.數(shù)據(jù)安全管理中定義的數(shù)據(jù)所有者,是構(gòu)建數(shù)據(jù)質(zhì)量治理閉環(huán)流程和確定數(shù)據(jù)整改權(quán)責(zé)的重要依據(jù)。

作者:孫中東


歡迎關(guān)注微信公眾號(hào) :大數(shù)據(jù)階梯之路