數(shù)據(jù)治理:數(shù)據(jù)質(zhì)量評(píng)價(jià)體系
數(shù)據(jù)質(zhì)量人人有責(zé),這不僅僅只是一句口號(hào),更是數(shù)據(jù)工作者的生命線。數(shù)據(jù)質(zhì)量的好壞直接決定著數(shù)據(jù)價(jià)值高低。
數(shù)據(jù)質(zhì)量管理是指在數(shù)據(jù)創(chuàng)建、加工、使用和遷移等過程中,通過開展數(shù)據(jù)質(zhì)量定義、過程控制、監(jiān)測、問題分析和整改、評(píng)估與考核等一系列管理活動(dòng),提高數(shù)據(jù)質(zhì)量以滿足業(yè)務(wù)要求。
可按照“誰創(chuàng)建、誰負(fù)責(zé);誰加工、誰負(fù)責(zé);誰提供、誰負(fù)責(zé)”的原則界定數(shù)據(jù)質(zhì)量管理責(zé)任,由數(shù)據(jù)流轉(zhuǎn)環(huán)節(jié)的各責(zé)任方對(duì)管轄范圍內(nèi)的數(shù)據(jù)質(zhì)量負(fù)責(zé)。對(duì)數(shù)據(jù)質(zhì)量規(guī)則優(yōu)先采取系統(tǒng)程序的自動(dòng)化控制措施,并盡可能前移管控點(diǎn),從源頭上控制數(shù)據(jù)質(zhì)量。
01 數(shù)據(jù)治理問題場景
在日常工作中,業(yè)務(wù)領(lǐng)導(dǎo)經(jīng)常會(huì)通過報(bào)表看板等數(shù)據(jù)產(chǎn)品來了解各項(xiàng)業(yè)務(wù)的發(fā)展趨勢以及KPI的達(dá)成情況。倘若某天,他打開某張核心報(bào)表,發(fā)現(xiàn)當(dāng)日的數(shù)據(jù)一直是空白的,詢問報(bào)表開發(fā)人員,開發(fā)經(jīng)排查分析,發(fā)現(xiàn)是依賴的上游有延遲,上游數(shù)據(jù)預(yù)計(jì)要下午才能到達(dá),導(dǎo)致業(yè)務(wù)領(lǐng)導(dǎo)在正常時(shí)點(diǎn)無法查看業(yè)務(wù)數(shù)據(jù)情況。
又或某天,業(yè)務(wù)人員點(diǎn)開報(bào)表發(fā)現(xiàn)當(dāng)日AUM規(guī)模暴增,數(shù)據(jù)增長當(dāng)然開心,但仔細(xì)推敲,發(fā)現(xiàn)這波動(dòng)有點(diǎn)不合常理,于是通知數(shù)據(jù)負(fù)責(zé)人驗(yàn)證下數(shù)據(jù)是否存在異常。經(jīng)過幾個(gè)小時(shí)的排查分析,數(shù)據(jù)負(fù)責(zé)人報(bào)告說數(shù)據(jù)確實(shí)算的有些問題,業(yè)務(wù)業(yè)務(wù)以后對(duì)該報(bào)表數(shù)據(jù)的準(zhǔn)確性將會(huì)打上問號(hào)。
若類似的數(shù)據(jù)問題經(jīng)常出現(xiàn),估計(jì)迎接你的不是美好明天,而是你的職業(yè)生涯的最后一天。
02 數(shù)據(jù)質(zhì)量的重要性
數(shù)據(jù)質(zhì)量為什么至關(guān)重要?因?yàn)閾碛懈哔|(zhì)量的數(shù)據(jù)可以讓您更好地了解任何情況,從而更精準(zhǔn)地執(zhí)行任何事情。反之亦然。
伴隨著技術(shù)的進(jìn)步,組織或者企業(yè)能夠收集大量的數(shù)據(jù),用好這些數(shù)據(jù)已成為焦點(diǎn)。然而,由于以下原因,很多組織或者企業(yè)并沒有實(shí)施數(shù)據(jù)質(zhì)量計(jì)劃:
沒有業(yè)務(wù)部門負(fù)責(zé)數(shù)據(jù)質(zhì)量問題
數(shù)據(jù)質(zhì)量需要跨職能合作
它要求組織認(rèn)識(shí)到數(shù)據(jù)質(zhì)量是一個(gè)重要問題
它需要數(shù)據(jù)質(zhì)量準(zhǔn)則
它需要投入財(cái)力和人力資源
它被認(rèn)為是非常人力密集的
投資回報(bào)往往難以量化
看起來,挑戰(zhàn)大于好處。
但是,數(shù)據(jù)質(zhì)量務(wù)必重視,原因有三。
原因一:成本
數(shù)據(jù)質(zhì)量差,是IT項(xiàng)目失敗的主要原因,也是客戶流逝背后的驅(qū)動(dòng)因素之一。
原因二:合規(guī)
質(zhì)量差的數(shù)據(jù)會(huì)帶來重大的法律或者聲譽(yù)風(fēng)險(xiǎn)。一些例子如下:
數(shù)據(jù)缺失導(dǎo)致信用風(fēng)險(xiǎn)不準(zhǔn)確
信用記錄不完整致使風(fēng)險(xiǎn)評(píng)估錯(cuò)誤
監(jiān)管違規(guī)
原因三:決策
質(zhì)量好的數(shù)據(jù)意味著有準(zhǔn)確及時(shí)的信息來管理從研發(fā)到銷售的產(chǎn)品和服務(wù)。質(zhì)量差的數(shù)據(jù)導(dǎo)致錯(cuò)誤的洞察力,從而做出錯(cuò)誤的決策。決策的錯(cuò)誤,公司會(huì)付出沉重的代價(jià)。
在企業(yè),數(shù)據(jù)服務(wù)的方式有報(bào)表看板、標(biāo)簽指標(biāo)和數(shù)據(jù)接口等,而這些數(shù)據(jù)服務(wù)要想為業(yè)務(wù)帶來價(jià)值的,其首要前提就是要保證數(shù)據(jù)的準(zhǔn)確性,輸出高質(zhì)量的數(shù)據(jù)。
低質(zhì)量的數(shù)據(jù)會(huì)誤導(dǎo)業(yè)務(wù)做出錯(cuò)誤的決定,致使行動(dòng)方向發(fā)生偏離。特別是在數(shù)據(jù)驅(qū)動(dòng)的組織中,是否有準(zhǔn)確的、可用的高質(zhì)量的數(shù)據(jù),將直接影響領(lǐng)導(dǎo)層能否做出正確的決策和戰(zhàn)略目標(biāo)的實(shí)現(xiàn)。
因此需要特別重視數(shù)據(jù)的質(zhì)量問題,針對(duì)數(shù)據(jù)質(zhì)量進(jìn)行專項(xiàng)治理。
03 數(shù)據(jù)質(zhì)量常見問題
在前面的場景案例中,我們可以發(fā)現(xiàn)有如下幾個(gè)數(shù)據(jù)質(zhì)量問題:
數(shù)據(jù)延遲,導(dǎo)致業(yè)務(wù)無法在正常時(shí)效內(nèi)獲得數(shù)據(jù)結(jié)果。
數(shù)據(jù)錯(cuò)誤,導(dǎo)致數(shù)據(jù)結(jié)果完全不可信,以致無法使用。
數(shù)據(jù)恢復(fù)慢,問題發(fā)生后,排查分析耗時(shí)長,數(shù)據(jù)恢復(fù)時(shí)間慢。
發(fā)現(xiàn)滯后,數(shù)據(jù)開發(fā)晚于業(yè)務(wù)人員發(fā)現(xiàn)數(shù)據(jù)異常,導(dǎo)致影響已傳導(dǎo)到數(shù)據(jù)應(yīng)用端。
04 數(shù)據(jù)質(zhì)量問題原因
那應(yīng)該如何解決這些質(zhì)量問題,保證數(shù)據(jù)的高質(zhì)量交付呢?
首先,我們需要了解這些質(zhì)量問題產(chǎn)生的根本原因,了解問題才能更好地去解決問題。通過對(duì)歷次數(shù)據(jù)質(zhì)量問題進(jìn)行復(fù)盤、總結(jié),發(fā)現(xiàn)質(zhì)量問題主要由下面幾類原因引發(fā):
數(shù)據(jù)平臺(tái)問題:平臺(tái)不穩(wěn)定、隊(duì)列資源不足等,導(dǎo)致作業(yè)運(yùn)行延遲、報(bào)錯(cuò)。
數(shù)據(jù)開發(fā)問題:數(shù)據(jù)開發(fā)人員的任務(wù)腳本性能太差,計(jì)算嚴(yán)重耗時(shí),導(dǎo)致數(shù)據(jù)延遲;或是代碼邏輯設(shè)計(jì)有問題,導(dǎo)致數(shù)據(jù)計(jì)算有誤。
上游系統(tǒng)異常:上游源系統(tǒng)異常,數(shù)據(jù)文件晚到,導(dǎo)致下游依賴作業(yè)延遲。
05 數(shù)據(jù)質(zhì)量治理
出現(xiàn)問題不可怕,可怕的是出現(xiàn)問題后,我們毫無感知,不能做到“早發(fā)現(xiàn)、早處理、早恢復(fù)”,以致問題直接傳導(dǎo)到業(yè)務(wù)方,影響業(yè)務(wù)的開展工作。
在大數(shù)據(jù)產(chǎn)品矩陣中,我們使用數(shù)據(jù)質(zhì)量監(jiān)控平臺(tái)來支持?jǐn)?shù)據(jù)質(zhì)量的監(jiān)控、治理。
數(shù)據(jù)質(zhì)量監(jiān)控平臺(tái),主要是對(duì)Hive數(shù)倉中的庫表數(shù)據(jù)的質(zhì)量進(jìn)行監(jiān)控,包括表級(jí)別和字段級(jí)別的數(shù)據(jù)進(jìn)行監(jiān)控,以減少或避免由數(shù)據(jù)質(zhì)量引起的事故和損失。
借助數(shù)據(jù)質(zhì)量監(jiān)控平臺(tái),我們通過實(shí)施下面幾個(gè)關(guān)鍵步驟來進(jìn)行數(shù)據(jù)質(zhì)量的治理:
(1)配置監(jiān)控規(guī)則
對(duì)高價(jià)值分的作業(yè),我們要求強(qiáng)制配置基礎(chǔ)監(jiān)控規(guī)則,如:主鍵唯一性校驗(yàn)、數(shù)據(jù)非空校驗(yàn);
另還可以根據(jù)業(yè)務(wù)場景需要,配置對(duì)應(yīng)的業(yè)務(wù)規(guī)則監(jiān)控,如:字段總值環(huán)比校驗(yàn)、字段極值校驗(yàn)等,監(jiān)控平臺(tái)內(nèi)置了約17種字段級(jí)校驗(yàn)規(guī)則、5種表級(jí)校驗(yàn)規(guī)則,供直接配置使用;
除內(nèi)置了豐富的校驗(yàn)規(guī)則,質(zhì)量監(jiān)控平臺(tái)還支持SQL自定義監(jiān)控規(guī)則,極大地滿足各種數(shù)據(jù)監(jiān)控場景。
(2)監(jiān)控告警
當(dāng)校驗(yàn)規(guī)則識(shí)別異常時(shí),需要通知負(fù)責(zé)人進(jìn)行跟進(jìn)處理,質(zhì)量監(jiān)控平臺(tái)支持以電話、郵件和短信等方式通知作業(yè)屬主。作業(yè)屬主收到告警后,需及時(shí)地處理和關(guān)閉告警,否則告警將一直掛在那,在后面的告警響應(yīng)度中會(huì)被稽核到,上報(bào)其領(lǐng)導(dǎo)。
(3)全鏈路數(shù)據(jù)監(jiān)控
根據(jù)作業(yè)的價(jià)值分級(jí),針對(duì)高價(jià)值作業(yè),開發(fā)人員可根據(jù)數(shù)據(jù)血緣,對(duì)上游作業(yè)依次配上監(jiān)控,實(shí)現(xiàn)全鏈路的數(shù)據(jù)質(zhì)量監(jiān)控。
06 數(shù)據(jù)質(zhì)量評(píng)價(jià)體系
在執(zhí)行了一系列的舉措來提高數(shù)據(jù)質(zhì)量后,如何來驗(yàn)證數(shù)據(jù)質(zhì)量的治理效果呢?
數(shù)據(jù)質(zhì)量人人有責(zé),這不僅僅只是一句口號(hào),更是數(shù)據(jù)工作者的生命線。數(shù)據(jù)質(zhì)量的好壞直接決定著數(shù)據(jù)價(jià)值高低。
數(shù)據(jù)質(zhì)量管理是指在數(shù)據(jù)創(chuàng)建、加工、使用和遷移等過程中,通過開展數(shù)據(jù)質(zhì)量定義、過程控制、監(jiān)測、問題分析和整改、評(píng)估與考核等一系列管理活動(dòng),提高數(shù)據(jù)質(zhì)量以滿足業(yè)務(wù)要求。
可按照“誰創(chuàng)建、誰負(fù)責(zé);誰加工、誰負(fù)責(zé);誰提供、誰負(fù)責(zé)”的原則界定數(shù)據(jù)質(zhì)量管理責(zé)任,由數(shù)據(jù)流轉(zhuǎn)環(huán)節(jié)的各責(zé)任方對(duì)管轄范圍內(nèi)的數(shù)據(jù)質(zhì)量負(fù)責(zé)。對(duì)數(shù)據(jù)質(zhì)量規(guī)則優(yōu)先采取系統(tǒng)程序的自動(dòng)化控制措施,并盡可能前移管控點(diǎn),從源頭上控制數(shù)據(jù)質(zhì)量。
01 數(shù)據(jù)治理問題場景
在日常工作中,業(yè)務(wù)領(lǐng)導(dǎo)經(jīng)常會(huì)通過報(bào)表看板等數(shù)據(jù)產(chǎn)品來了解各項(xiàng)業(yè)務(wù)的發(fā)展趨勢以及KPI的達(dá)成情況。倘若某天,他打開某張核心報(bào)表,發(fā)現(xiàn)當(dāng)日的數(shù)據(jù)一直是空白的,詢問報(bào)表開發(fā)人員,開發(fā)經(jīng)排查分析,發(fā)現(xiàn)是依賴的上游有延遲,上游數(shù)據(jù)預(yù)計(jì)要下午才能到達(dá),導(dǎo)致業(yè)務(wù)領(lǐng)導(dǎo)在正常時(shí)點(diǎn)無法查看業(yè)務(wù)數(shù)據(jù)情況。
又或某天,業(yè)務(wù)人員點(diǎn)開報(bào)表發(fā)現(xiàn)當(dāng)日AUM規(guī)模暴增,數(shù)據(jù)增長當(dāng)然開心,但仔細(xì)推敲,發(fā)現(xiàn)這波動(dòng)有點(diǎn)不合常理,于是通知數(shù)據(jù)負(fù)責(zé)人驗(yàn)證下數(shù)據(jù)是否存在異常。經(jīng)過幾個(gè)小時(shí)的排查分析,數(shù)據(jù)負(fù)責(zé)人報(bào)告說數(shù)據(jù)確實(shí)算的有些問題,業(yè)務(wù)業(yè)務(wù)以后對(duì)該報(bào)表數(shù)據(jù)的準(zhǔn)確性將會(huì)打上問號(hào)。
若類似的數(shù)據(jù)問題經(jīng)常出現(xiàn),估計(jì)迎接你的不是美好明天,而是你的職業(yè)生涯的最后一天。
02 數(shù)據(jù)質(zhì)量的重要性
數(shù)據(jù)質(zhì)量為什么至關(guān)重要?因?yàn)閾碛懈哔|(zhì)量的數(shù)據(jù)可以讓您更好地了解任何情況,從而更精準(zhǔn)地執(zhí)行任何事情。反之亦然。
伴隨著技術(shù)的進(jìn)步,組織或者企業(yè)能夠收集大量的數(shù)據(jù),用好這些數(shù)據(jù)已成為焦點(diǎn)。然而,由于以下原因,很多組織或者企業(yè)并沒有實(shí)施數(shù)據(jù)質(zhì)量計(jì)劃:
沒有業(yè)務(wù)部門負(fù)責(zé)數(shù)據(jù)質(zhì)量問題
數(shù)據(jù)質(zhì)量需要跨職能合作
它要求組織認(rèn)識(shí)到數(shù)據(jù)質(zhì)量是一個(gè)重要問題
它需要數(shù)據(jù)質(zhì)量準(zhǔn)則
它需要投入財(cái)力和人力資源
它被認(rèn)為是非常人力密集的
投資回報(bào)往往難以量化
看起來,挑戰(zhàn)大于好處。
但是,數(shù)據(jù)質(zhì)量務(wù)必重視,原因有三。
原因一:成本
數(shù)據(jù)質(zhì)量差,是IT項(xiàng)目失敗的主要原因,也是客戶流逝背后的驅(qū)動(dòng)因素之一。
原因二:合規(guī)
質(zhì)量差的數(shù)據(jù)會(huì)帶來重大的法律或者聲譽(yù)風(fēng)險(xiǎn)。一些例子如下:
數(shù)據(jù)缺失導(dǎo)致信用風(fēng)險(xiǎn)不準(zhǔn)確
信用記錄不完整致使風(fēng)險(xiǎn)評(píng)估錯(cuò)誤
監(jiān)管違規(guī)
原因三:決策
質(zhì)量好的數(shù)據(jù)意味著有準(zhǔn)確及時(shí)的信息來管理從研發(fā)到銷售的產(chǎn)品和服務(wù)。質(zhì)量差的數(shù)據(jù)導(dǎo)致錯(cuò)誤的洞察力,從而做出錯(cuò)誤的決策。決策的錯(cuò)誤,公司會(huì)付出沉重的代價(jià)。
在企業(yè),數(shù)據(jù)服務(wù)的方式有報(bào)表看板、標(biāo)簽指標(biāo)和數(shù)據(jù)接口等,而這些數(shù)據(jù)服務(wù)要想為業(yè)務(wù)帶來價(jià)值的,其首要前提就是要保證數(shù)據(jù)的準(zhǔn)確性,輸出高質(zhì)量的數(shù)據(jù)。
低質(zhì)量的數(shù)據(jù)會(huì)誤導(dǎo)業(yè)務(wù)做出錯(cuò)誤的決定,致使行動(dòng)方向發(fā)生偏離。特別是在數(shù)據(jù)驅(qū)動(dòng)的組織中,是否有準(zhǔn)確的、可用的高質(zhì)量的數(shù)據(jù),將直接影響領(lǐng)導(dǎo)層能否做出正確的決策和戰(zhàn)略目標(biāo)的實(shí)現(xiàn)。
因此需要特別重視數(shù)據(jù)的質(zhì)量問題,針對(duì)數(shù)據(jù)質(zhì)量進(jìn)行專項(xiàng)治理。
03 數(shù)據(jù)質(zhì)量常見問題
在前面的場景案例中,我們可以發(fā)現(xiàn)有如下幾個(gè)數(shù)據(jù)質(zhì)量問題:
數(shù)據(jù)延遲,導(dǎo)致業(yè)務(wù)無法在正常時(shí)效內(nèi)獲得數(shù)據(jù)結(jié)果。
數(shù)據(jù)錯(cuò)誤,導(dǎo)致數(shù)據(jù)結(jié)果完全不可信,以致無法使用。
數(shù)據(jù)恢復(fù)慢,問題發(fā)生后,排查分析耗時(shí)長,數(shù)據(jù)恢復(fù)時(shí)間慢。
發(fā)現(xiàn)滯后,數(shù)據(jù)開發(fā)晚于業(yè)務(wù)人員發(fā)現(xiàn)數(shù)據(jù)異常,導(dǎo)致影響已傳導(dǎo)到數(shù)據(jù)應(yīng)用端。
04 數(shù)據(jù)質(zhì)量問題原因
那應(yīng)該如何解決這些質(zhì)量問題,保證數(shù)據(jù)的高質(zhì)量交付呢?
首先,我們需要了解這些質(zhì)量問題產(chǎn)生的根本原因,了解問題才能更好地去解決問題。通過對(duì)歷次數(shù)據(jù)質(zhì)量問題進(jìn)行復(fù)盤、總結(jié),發(fā)現(xiàn)質(zhì)量問題主要由下面幾類原因引發(fā):
數(shù)據(jù)平臺(tái)問題:平臺(tái)不穩(wěn)定、隊(duì)列資源不足等,導(dǎo)致作業(yè)運(yùn)行延遲、報(bào)錯(cuò)。
數(shù)據(jù)開發(fā)問題:數(shù)據(jù)開發(fā)人員的任務(wù)腳本性能太差,計(jì)算嚴(yán)重耗時(shí),導(dǎo)致數(shù)據(jù)延遲;或是代碼邏輯設(shè)計(jì)有問題,導(dǎo)致數(shù)據(jù)計(jì)算有誤。
上游系統(tǒng)異常:上游源系統(tǒng)異常,數(shù)據(jù)文件晚到,導(dǎo)致下游依賴作業(yè)延遲。
05 數(shù)據(jù)質(zhì)量治理
出現(xiàn)問題不可怕,可怕的是出現(xiàn)問題后,我們毫無感知,不能做到“早發(fā)現(xiàn)、早處理、早恢復(fù)”,以致問題直接傳導(dǎo)到業(yè)務(wù)方,影響業(yè)務(wù)的開展工作。
在大數(shù)據(jù)產(chǎn)品矩陣中,我們使用數(shù)據(jù)質(zhì)量監(jiān)控平臺(tái)來支持?jǐn)?shù)據(jù)質(zhì)量的監(jiān)控、治理。
數(shù)據(jù)質(zhì)量監(jiān)控平臺(tái),主要是對(duì)Hive數(shù)倉中的庫表數(shù)據(jù)的質(zhì)量進(jìn)行監(jiān)控,包括表級(jí)別和字段級(jí)別的數(shù)據(jù)進(jìn)行監(jiān)控,以減少或避免由數(shù)據(jù)質(zhì)量引起的事故和損失。
借助數(shù)據(jù)質(zhì)量監(jiān)控平臺(tái),我們通過實(shí)施下面幾個(gè)關(guān)鍵步驟來進(jìn)行數(shù)據(jù)質(zhì)量的治理:
(1)配置監(jiān)控規(guī)則
對(duì)高價(jià)值分的作業(yè),我們要求強(qiáng)制配置基礎(chǔ)監(jiān)控規(guī)則,如:主鍵唯一性校驗(yàn)、數(shù)據(jù)非空校驗(yàn);
另還可以根據(jù)業(yè)務(wù)場景需要,配置對(duì)應(yīng)的業(yè)務(wù)規(guī)則監(jiān)控,如:字段總值環(huán)比校驗(yàn)、字段極值校驗(yàn)等,監(jiān)控平臺(tái)內(nèi)置了約17種字段級(jí)校驗(yàn)規(guī)則、5種表級(jí)校驗(yàn)規(guī)則,供直接配置使用;
除內(nèi)置了豐富的校驗(yàn)規(guī)則,質(zhì)量監(jiān)控平臺(tái)還支持SQL自定義監(jiān)控規(guī)則,極大地滿足各種數(shù)據(jù)監(jiān)控場景。
(2)監(jiān)控告警
當(dāng)校驗(yàn)規(guī)則識(shí)別異常時(shí),需要通知負(fù)責(zé)人進(jìn)行跟進(jìn)處理,質(zhì)量監(jiān)控平臺(tái)支持以電話、郵件和短信等方式通知作業(yè)屬主。作業(yè)屬主收到告警后,需及時(shí)地處理和關(guān)閉告警,否則告警將一直掛在那,在后面的告警響應(yīng)度中會(huì)被稽核到,上報(bào)其領(lǐng)導(dǎo)。
(3)全鏈路數(shù)據(jù)監(jiān)控
根據(jù)作業(yè)的價(jià)值分級(jí),針對(duì)高價(jià)值作業(yè),開發(fā)人員可根據(jù)數(shù)據(jù)血緣,對(duì)上游作業(yè)依次配上監(jiān)控,實(shí)現(xiàn)全鏈路的數(shù)據(jù)質(zhì)量監(jiān)控。
06 數(shù)據(jù)質(zhì)量評(píng)價(jià)體系
在執(zhí)行了一系列的舉措來提高數(shù)據(jù)質(zhì)量后,如何來驗(yàn)證數(shù)據(jù)質(zhì)量的治理效果呢?
根據(jù)企業(yè)本身的數(shù)據(jù)特點(diǎn),設(shè)計(jì)并構(gòu)建了一個(gè)數(shù)據(jù)質(zhì)量七維評(píng)價(jià)模型,如下圖所示:
數(shù)據(jù)質(zhì)量評(píng)價(jià)模型,分別從數(shù)據(jù)完整性、監(jiān)控覆蓋率、告警響應(yīng)度、作業(yè)準(zhǔn)確性、作業(yè)穩(wěn)定性、作業(yè)時(shí)效性、作業(yè)性能分等七個(gè)維度來考量平臺(tái)的數(shù)據(jù)質(zhì)量,基于該模型,還設(shè)計(jì)了“數(shù)據(jù)質(zhì)量分”這個(gè)指標(biāo),來直觀地反映平臺(tái)數(shù)據(jù)質(zhì)量的建設(shè)水平及健康狀況。
數(shù)據(jù)質(zhì)量七維模型的評(píng)價(jià)視角及其計(jì)算口徑:
1數(shù)據(jù)完整性
☆ 考量數(shù)據(jù)項(xiàng)信息是否全面、完整、無缺失
★ 指標(biāo)公式:表完整性和字段完整性的平均值
2監(jiān)控覆蓋率
☆ 確保數(shù)據(jù)遵循統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)或規(guī)范要求
★ 指標(biāo)公式:監(jiān)控的高價(jià)值作業(yè)個(gè)數(shù)/高價(jià)值作業(yè)總個(gè)數(shù)
其中,高價(jià)值作業(yè)是指作業(yè)價(jià)值分在80分以上的作業(yè)
3告警響應(yīng)度
☆ 通過日常管理、應(yīng)急響應(yīng),降低或消除問題影響,避免數(shù)據(jù)損毀、丟失
★ 指標(biāo)公式:已處理告警個(gè)數(shù)(本周)/告警總個(gè)數(shù)(本周)
4作業(yè)準(zhǔn)確性
☆ 考量數(shù)據(jù)是否符合預(yù)設(shè)的質(zhì)量要求,如唯一性約束、記錄量校驗(yàn)等
★ 指標(biāo)公式:1 - 告警作業(yè)個(gè)數(shù)(本周)/監(jiān)控作業(yè)總個(gè)數(shù)
5作業(yè)穩(wěn)定性
☆ 考量作業(yè)的運(yùn)行穩(wěn)定性,是否經(jīng)常報(bào)錯(cuò),導(dǎo)致數(shù)據(jù)事故
★ 指標(biāo)公式:1 - 錯(cuò)誤作業(yè)個(gè)數(shù)(本周)/作業(yè)總個(gè)數(shù)
6作業(yè)時(shí)效性
☆ 考量數(shù)據(jù)項(xiàng)信息可被獲取和使用的時(shí)間是否滿足預(yù)期要求
★ 指標(biāo)公式:1 - 延遲的高價(jià)值作業(yè)個(gè)數(shù)(本周)/高價(jià)值作業(yè)總個(gè)數(shù)
其中,基準(zhǔn)時(shí)間為作業(yè)近30天平均完成時(shí)間加30分鐘,作業(yè)晚于基準(zhǔn)即延遲
7作業(yè)性能分
☆ 考量作業(yè)的執(zhí)行效率和健康度,診斷作業(yè)是否傾斜等性能問題
★ 指標(biāo)公式:1 - 危急作業(yè)個(gè)數(shù)(本周)/作業(yè)總個(gè)數(shù)
從各質(zhì)量維度的評(píng)價(jià)視角和指標(biāo)公式可以發(fā)現(xiàn),雖然數(shù)據(jù)質(zhì)量監(jiān)控的是表及字段的質(zhì)量情況,但我們的質(zhì)量分是設(shè)定在庫這個(gè)層級(jí)。這么設(shè)計(jì)主要是為了更好地責(zé)任劃分、統(tǒng)籌治理。
比如在銀行業(yè),每個(gè)庫都有其對(duì)應(yīng)的所屬分層(如明細(xì)層、匯總層、應(yīng)用層等),且每個(gè)庫都有對(duì)應(yīng)的庫負(fù)責(zé)人,所以到庫這個(gè)層級(jí),我們能更好的分而治之,由庫負(fù)責(zé)人對(duì)庫的質(zhì)量水平負(fù)責(zé)。
基于數(shù)據(jù)質(zhì)量模型,我們還配套對(duì)應(yīng)的數(shù)據(jù)質(zhì)量監(jiān)控報(bào)告。在報(bào)告中我們不僅能看到數(shù)據(jù)平臺(tái)的整體質(zhì)量評(píng)分,了解質(zhì)量發(fā)展趨勢,更能通過多維分析、單維深鉆來了解平臺(tái)的質(zhì)量問題根源。
多維分析:詳細(xì)展示七個(gè)質(zhì)量維度的評(píng)分及趨勢變化,每個(gè)維度下還配有TOP榜,用來展示低質(zhì)量的庫排名,督促庫負(fù)責(zé)人進(jìn)行優(yōu)化、治理;
單維深鉆:每一個(gè)質(zhì)量維度都能從整體下鉆到具體庫及表,深入了解該維度質(zhì)量評(píng)分低的具體原因,以便針對(duì)性地解決問題、提高質(zhì)量;
綜上,就是在數(shù)據(jù)質(zhì)量治理方面的一些具體實(shí)踐。數(shù)據(jù)質(zhì)量治理是一個(gè)長期的、持續(xù)性的工作,不可能期望一蹴而就。
在治理過程中,需要不斷優(yōu)化質(zhì)量短板,夯實(shí)質(zhì)量基石。設(shè)目標(biāo)、定責(zé)任,積極配合與行動(dòng),充分利用平臺(tái)工具,共同建設(shè)一個(gè)數(shù)據(jù)烏托邦,讓數(shù)據(jù)價(jià)值發(fā)揮耀眼光芒。
數(shù)據(jù)質(zhì)量治理僅僅是數(shù)據(jù)治理的一個(gè)小環(huán),而企業(yè)內(nèi)部的數(shù)據(jù)質(zhì)量問題并非不治之癥,根據(jù)行業(yè)最佳實(shí)踐開展管理體系提升,配備必要的軟件,總能把這個(gè)問題解決掉,所謂企業(yè)內(nèi)部的數(shù)據(jù)質(zhì)量問題最終會(huì)消弭于無形。
- END -
作者:大數(shù)據(jù)階梯之路
歡迎關(guān)注微信公眾號(hào) :大數(shù)據(jù)階梯之路