一文讀懂元數(shù)據(jù)管理!


以下文章來源于談數(shù)據(jù) ,作者石秀峰
數(shù)字化時代,企業(yè)需要知道他們擁有什么數(shù)據(jù),數(shù)據(jù)在哪里、由誰負責(zé),數(shù)據(jù)中的值意味著什么,數(shù)據(jù)的生命周期是什么,哪些數(shù)據(jù)安全性和隱私性需要保護,以及誰使用了數(shù)據(jù),用于什么業(yè)務(wù)目的,數(shù)據(jù)的質(zhì)量怎么樣,等等。這些問題都需要通過元數(shù)據(jù)管理解決,缺乏有效的元數(shù)據(jù)管理,企業(yè)的數(shù)據(jù)資產(chǎn)可能會變成拖累企業(yè)利潤的“包袱”。

— 01 —
什么是元數(shù)據(jù)?

元數(shù)據(jù)(metadata)是關(guān)于數(shù)據(jù)的組織、數(shù)據(jù)域及其關(guān)系的信息,簡言之,元數(shù)據(jù)就是描述數(shù)據(jù)的數(shù)據(jù)。概念總是生澀,對于沒有IT背景的人來說比較抽象,不容易理解,下面舉幾個例子。
示例1:歌詞中的元數(shù)據(jù)
有一首很多80后耳熟能詳?shù)母枨小缎》肌?,歌詞中有這么一句:“村里有個姑娘叫小芳,長得好看又善良?!?我們對這句歌詞做一下分析。姓名:小芳;性別:姑娘(女);長相:好看;性格:善良;住址:村里。歌詞里面,“小芳”是被描述的對象,而“姓名”“性別”“長相”“性格”“住址”就是描述“小芳”的元數(shù)據(jù)。
示例2:戶口本中的元數(shù)據(jù)
戶口本中除了有姓名、身份證號、出生日期、住址、民族等信息外,還有家庭關(guān)系,如夫妻關(guān)系、父子關(guān)系、兄弟關(guān)系等。這些信息就是描述一個人的元數(shù)據(jù),通過戶口本中的元數(shù)據(jù),我們不僅能夠了解一個人的基本信息,還能夠了解其家庭關(guān)系。
示例3:圖書館中的元數(shù)據(jù)
圖書館都會用一個叫作“圖書目錄”的文件夾來管理藏書,圖書目錄包含圖書名稱、編號、作者、主題、簡介、擺放位置等信息,用來幫助圖書管理員管理和快速查找圖書。元數(shù)據(jù)就如同圖書館的圖書目錄一樣,能夠幫助數(shù)據(jù)管理員管理數(shù)據(jù)。
示例4:元數(shù)據(jù)好比字典
字典包含一個字的注音、含義、組詞、舉例等基本信息及其字體結(jié)構(gòu)、相關(guān)引用、出處等。另外,我們可以通過拼音或偏旁部首查到這個字。所有這些信息都是對這個字的詳細描述,它們就是描述這個字的元數(shù)據(jù)。
示例5:元數(shù)據(jù)就像地圖
地圖是按一定比例運用線條、符號、顏色、文字注記等描繪顯示地球表面的自然地理、行政區(qū)域、社會經(jīng)濟狀況的圖。通過地圖,你能夠找到自己所處的地理位置,了解你從哪里來,到哪里去,途中要路過哪些地方。元數(shù)據(jù)也具備這樣的特點,它能夠幫助企業(yè)了解自己有哪些數(shù)據(jù),這些數(shù)據(jù)存放在哪里,數(shù)據(jù)的來源、去向及加工路徑等。
元數(shù)據(jù)與數(shù)據(jù)的不同之處在于:元數(shù)據(jù)描述的不是特定的實例或記錄,IT部門和業(yè)務(wù)部門都需要高質(zhì)量的元數(shù)據(jù)來理解現(xiàn)有數(shù)據(jù);元數(shù)據(jù)是比一般意義上的數(shù)據(jù)范疇更加廣泛的數(shù)據(jù),不僅表示數(shù)據(jù)的類型、名稱、值等信息,還提供數(shù)據(jù)的上下文描述,比如數(shù)據(jù)的所屬業(yè)務(wù)域、取值范圍、數(shù)據(jù)間的關(guān)系、業(yè)務(wù)規(guī)則、數(shù)據(jù)來源等。
可以用5W1H模型來理解元數(shù)據(jù),如表16-1所示:
知識類型
定義
技術(shù)示例
業(yè)務(wù)示例
Who

誰負責(zé)數(shù)據(jù)接口的開發(fā)?
誰是財務(wù)域、業(yè)務(wù)域的負責(zé)人?
What
干什么或是什么
CRM和DW之間的數(shù)據(jù)血緣關(guān)系是什么?
企業(yè)市場管理業(yè)務(wù)域的指標體系包含哪些指標?
When
什么時候
提取、轉(zhuǎn)換和加載(ETL)作業(yè)什么時候運行?
我正在分析的數(shù)據(jù)上次刷新是什么時候?
Where
在哪里
所有類型的銷售訂單都分布存儲在哪個系統(tǒng)的哪些數(shù)據(jù)表當(dāng)中?
在哪里可以找到按營銷活動顯示我們的社交媒體分析的報告?
How
怎么樣,怎么做
如何設(shè)置數(shù)據(jù)質(zhì)量的管理規(guī)則?
如何獲得產(chǎn)品的競爭優(yōu)勢?
Why
為什么
出現(xiàn)數(shù)據(jù)質(zhì)量問題的根本原因是什么?
為什么老客戶會不斷流失?

— 02 —
元數(shù)據(jù)的類型

按照不同應(yīng)用領(lǐng)域或功能,元數(shù)據(jù)一般大致可為三類:業(yè)務(wù)元數(shù)據(jù)、技術(shù)元數(shù)據(jù)和操作元數(shù)據(jù)。
1、業(yè)務(wù)元數(shù)據(jù)
業(yè)務(wù)元數(shù)據(jù)描述數(shù)據(jù)的業(yè)務(wù)含義、業(yè)務(wù)規(guī)則等。通過明確業(yè)務(wù)元數(shù)據(jù),讓人們更容易理解和使用業(yè)務(wù)元數(shù)據(jù)。元數(shù)據(jù)消除了數(shù)據(jù)二義性,讓人們對數(shù)據(jù)有一致的認知,避免“自說自話”,進而為數(shù)據(jù)分析和應(yīng)用提供支撐。
常見的業(yè)務(wù)元數(shù)據(jù)有:
業(yè)務(wù)定義、業(yè)務(wù)術(shù)語解釋等;

業(yè)務(wù)指標名稱、計算口徑、衍生指標等;

業(yè)務(wù)規(guī)則引擎的規(guī)則、數(shù)據(jù)質(zhì)量檢測規(guī)則、數(shù)據(jù)挖掘算法等;

數(shù)據(jù)的安全或敏感級別等。





2、技術(shù)元數(shù)據(jù)
技術(shù)元數(shù)據(jù)是對數(shù)據(jù)的結(jié)構(gòu)化,方便計算機或數(shù)據(jù)庫對數(shù)據(jù)進行識別、存儲、傳輸和交換。技術(shù)元數(shù)據(jù)可以服務(wù)于開發(fā)人員,讓開發(fā)人員更加明確數(shù)據(jù)的存儲、結(jié)構(gòu),從而為應(yīng)用開發(fā)和系統(tǒng)集成奠定基礎(chǔ)。技術(shù)元數(shù)據(jù)也可服務(wù)于業(yè)務(wù)人員,通過元數(shù)據(jù)理清數(shù)據(jù)關(guān)系,讓業(yè)務(wù)人員更快速地找到想要的數(shù)據(jù),進而對數(shù)據(jù)的來源和去向進行分析,支持數(shù)據(jù)血緣追溯和影響分析。
常見的技術(shù)元數(shù)據(jù)有:
物理數(shù)據(jù)庫表名稱、列名稱、字段長度、字段類型、約束信息、數(shù)據(jù)依賴關(guān)系等;

數(shù)據(jù)存儲類型、位置、數(shù)據(jù)存儲文件格式或數(shù)據(jù)壓縮類型等;

字段級血緣關(guān)系、SQL腳本信息、ETL抽取加載轉(zhuǎn)換信息、接口程序等;

調(diào)度依賴關(guān)系、進度和數(shù)據(jù)更新頻率等。

3、操作元數(shù)據(jù)
操作元數(shù)據(jù)描述數(shù)據(jù)的操作屬性,包括管理部門、管理責(zé)任人等。明確管理屬性有利于數(shù)據(jù)管理責(zé)任到部門和個人,是數(shù)據(jù)安全管理的基礎(chǔ)。
常見的操作元數(shù)據(jù)有:
數(shù)據(jù)所有者、使用者等;
數(shù)據(jù)的訪問方式、訪問時間、訪問限制等;
數(shù)據(jù)訪問權(quán)限、組和角色等;
數(shù)據(jù)處理作業(yè)的結(jié)果、系統(tǒng)執(zhí)行日志等;
數(shù)據(jù)備份、歸檔人、歸檔時間等。

— 03 —
元數(shù)據(jù)管理的目標
企業(yè)元數(shù)據(jù)管理的本質(zhì)是有效利用企業(yè)數(shù)據(jù)資產(chǎn),讓數(shù)據(jù)發(fā)揮出盡可能大的價值。元數(shù)據(jù)管理可以幫助業(yè)務(wù)分析師、系統(tǒng)架構(gòu)師、數(shù)據(jù)倉庫工程師和軟件開發(fā)工程師等相關(guān)干系人清楚地知道企業(yè)擁有什么數(shù)據(jù),它們存儲在哪里,如何抽取、清理、維護這些數(shù)據(jù)并指導(dǎo)用戶使用。
以下元數(shù)據(jù)管理目標是企業(yè)的普遍訴求。
1、建立指標解釋體系
滿足用戶對業(yè)務(wù)和數(shù)據(jù)理解的需求,建立標準的企業(yè)內(nèi)部知識傳承的信息承載平臺,建立業(yè)務(wù)分析知識庫,實現(xiàn)知識共享。
能夠回答以下問題:
企業(yè)有哪些數(shù)據(jù)?
什么是企業(yè)有效客戶?有效客戶和客戶有何區(qū)別?
什么是產(chǎn)品的生命周期?
這個數(shù)據(jù)還叫什么名字?
數(shù)據(jù)倉庫中的存儲過程是誰寫的?它用來干什么?現(xiàn)在還有在用嗎?
典型應(yīng)用:數(shù)據(jù)資源目錄、業(yè)務(wù)術(shù)語表

2、提高數(shù)據(jù)溯源能力
讓用戶能夠清晰地了解數(shù)據(jù)倉庫中數(shù)據(jù)流的來龍去脈、業(yè)務(wù)處理規(guī)則、轉(zhuǎn)換情況等,提高數(shù)據(jù)的溯源能力,支持數(shù)據(jù)倉庫的成長需求,降低因員工換崗造成的影響。
3、數(shù)據(jù)質(zhì)量稽核體系
通過非冗余、非重復(fù)的元數(shù)據(jù)信息提高數(shù)據(jù)完整性、準確性。元數(shù)據(jù)管理解決的問題是如何將業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)分門別類地進行管理,建立報警、監(jiān)控機制,出現(xiàn)故障時能及時發(fā)現(xiàn)問題,為數(shù)據(jù)倉庫的數(shù)據(jù)質(zhì)量監(jiān)控提供基礎(chǔ)素材。






— 04 —
元數(shù)據(jù)管理的技術(shù)
從技術(shù)層面來看,元數(shù)據(jù)管理的技術(shù)主要包括元數(shù)據(jù)采集、元數(shù)據(jù)管理、元數(shù)據(jù)應(yīng)用和元數(shù)據(jù)接口等。
1、元數(shù)據(jù)采集
在數(shù)據(jù)治理項目中,常見的元數(shù)據(jù)有數(shù)據(jù)源的元數(shù)據(jù)、數(shù)據(jù)加工處理過程的元數(shù)據(jù)、數(shù)據(jù)倉庫或數(shù)據(jù)主題庫的元數(shù)據(jù)、數(shù)據(jù)應(yīng)用層的元數(shù)據(jù)、數(shù)據(jù)接口服務(wù)的元數(shù)據(jù)等。
元數(shù)據(jù)采集服務(wù)提供各類適配器來滿足以上各類元數(shù)據(jù)的采集需求,并將元數(shù)據(jù)整合處理后統(tǒng)一存儲于中央元數(shù)據(jù)倉庫,實現(xiàn)元數(shù)據(jù)的統(tǒng)一管理。在這個過程中,數(shù)據(jù)采集適配器十分重要,元數(shù)據(jù)采集不僅要能夠適配各種數(shù)據(jù)庫、各類ETL、各類數(shù)據(jù)倉庫和報表產(chǎn)品,還需要適配各類結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)源。
(1)關(guān)系型數(shù)據(jù)庫
通過元數(shù)據(jù)適配器采集來自O(shè)racle、DB2、SQL Server、MySQL、Teradata、Sybase等關(guān)系型數(shù)據(jù)庫的庫表結(jié)構(gòu)、視圖、存儲過程等元數(shù)據(jù)。關(guān)系型數(shù)據(jù)庫一般都提供了元數(shù)據(jù)的橋接器,例如Oracle的RDBMS,可實現(xiàn)元數(shù)據(jù)信息的快速讀取。
(2)2.NoSQL數(shù)據(jù)庫
元數(shù)據(jù)采集工具應(yīng)支持來自MongoDB、CouchDB、Redis、Neo4j、HBase等NoSQL數(shù)據(jù)庫中的元數(shù)據(jù),NoSQL數(shù)據(jù)庫適配器多半利用了自身管理和查詢Schema的能力。
(3)數(shù)據(jù)倉庫
對于主流的數(shù)據(jù)倉庫,可以基于其內(nèi)在的查詢腳本,定制開發(fā)相應(yīng)的適配器對其元數(shù)據(jù)進行采集。例如MPP數(shù)據(jù)庫Greenplum,其核心元數(shù)據(jù)都存儲在pg_database、pg_namespace、pg_class、pg_attribute、pg_proc這幾張表中,通過SQL腳本就可以對其元數(shù)據(jù)進行采集。Hive表結(jié)構(gòu)信息存儲在外部數(shù)據(jù)庫中,同時Hive提供類似show table、describe table之類的語法對其元數(shù)據(jù)信息進行查詢。
當(dāng)然,也可以利用專業(yè)的元數(shù)據(jù)采集工具來采集數(shù)據(jù)倉庫系統(tǒng)的元數(shù)據(jù)。
(4)云中的元數(shù)據(jù)
隨著公有云的日趨成熟,通過提供安全的云連接,將云端企業(yè)元數(shù)據(jù)管理用作核心IT基礎(chǔ)架構(gòu)的擴展,尤其是在中小企業(yè)之間,已經(jīng)成為現(xiàn)實。云端企業(yè)元數(shù)據(jù)管理通過各種上下文改善信息訪問,并將實時元數(shù)據(jù)管理、機器學(xué)習(xí)模型、元數(shù)據(jù)API推進流數(shù)據(jù)管道,可以更好地管理企業(yè)數(shù)據(jù)資產(chǎn)。
(5)其他元數(shù)據(jù)適配器
建模工具:PowerDesigner、ERwin、ER/Studio、EA等建模工具適配器。

ETL工具:PowerCenter、DataStage、Kettle等ETL工具適配器。

BI工具:Cognos、Power BI等前端工具中的二維報表元數(shù)據(jù)采集適配器。

Excel適配器:采集Excel格式文件的元數(shù)據(jù)。


當(dāng)然,目前市場上的主流元數(shù)據(jù)產(chǎn)品中還沒有哪一個能做到“萬能適配”,在實際應(yīng)用過程中都需要進行或多或少的定制化開發(fā)。
2、元數(shù)據(jù)管理
從技術(shù)的角度看,元數(shù)據(jù)管理一般包括元模型管理、元數(shù)據(jù)審核、元數(shù)據(jù)維護、元數(shù)據(jù)版本管理、元數(shù)據(jù)變更管理等功能。
(1)元模型管理
元模型管理即基于元數(shù)據(jù)平臺構(gòu)建符合CWM規(guī)范的元數(shù)據(jù)倉庫,實現(xiàn)元模型統(tǒng)一、集中化管理,提供元模型的查詢、增加、修改、刪除、元數(shù)據(jù)關(guān)系管理、權(quán)限設(shè)置等功能,支持概念模型、邏輯模型、物理模型的采集和管理,讓用戶直觀地了解已有元模型的分類、統(tǒng)計、使用情況、變更追溯,以及每個元模型的生命周期管理。同時,支持應(yīng)用開發(fā)的模型管理。
支持元模型的全生命周期管理。元模型生命周期中有三個狀態(tài),分別是:設(shè)計態(tài)、測試態(tài)和生產(chǎn)態(tài)。
設(shè)計態(tài)的元數(shù)據(jù)模型,通常由ERWin、PowerDesigner的等設(shè)計工具產(chǎn)生。

測試態(tài)的元數(shù)據(jù)模型,通常是關(guān)系型數(shù)據(jù),如Oracle、DB2、MySQL、Teradata等;或非關(guān)系型數(shù)據(jù)庫,如MongoDB、HBase、Hive、Hadoop等。

生產(chǎn)態(tài)的元數(shù)據(jù)模型,本質(zhì)上與測試態(tài)元數(shù)據(jù)差異不大。


通過元數(shù)據(jù)平臺對應(yīng)用開發(fā)三種狀態(tài)的統(tǒng)一管理和對比分析,能夠有效降低元數(shù)據(jù)變更帶來的風(fēng)險,為下游ODS、DW的數(shù)據(jù)應(yīng)用提供支撐。
(2)元數(shù)據(jù)審核
元數(shù)據(jù)審核主要是審核采集到元數(shù)據(jù)倉庫但還未正式發(fā)布到數(shù)據(jù)資源目錄中的元數(shù)據(jù)。審核過程中支持對數(shù)據(jù)進行有效性驗證并修復(fù)一些問題,例如缺乏語義描述、缺少字段、類型錯誤、編碼缺失或不可識別的字符編碼等。
(3)元數(shù)據(jù)維護
元數(shù)據(jù)維護就是對信息對象的基本信息、屬性、被依賴關(guān)系、依賴關(guān)系、組合關(guān)系等元數(shù)據(jù)的新增、修改、刪除、查詢、發(fā)布等操作,支持根據(jù)元數(shù)據(jù)字典創(chuàng)建數(shù)據(jù)目錄,打印目錄結(jié)構(gòu),根據(jù)目錄發(fā)現(xiàn)、查找元數(shù)據(jù),查看元數(shù)據(jù)的內(nèi)容。元數(shù)據(jù)維護是最基本的元數(shù)據(jù)管理功能之一,技術(shù)人員和業(yè)務(wù)人員都會使用這個功能查看元數(shù)據(jù)的基本信息。
(4)元數(shù)據(jù)版本管理
在元數(shù)據(jù)處于一個相對完整、穩(wěn)定的時期,或者處于一個里程碑結(jié)束時期,可以對元數(shù)據(jù)定版以發(fā)布一個基線版本,以便日后對存異的或錯誤的元數(shù)據(jù)進行追溯、檢查和恢復(fù)。
(5)元數(shù)據(jù)變更管理
用戶可以自行訂閱元數(shù)據(jù),當(dāng)訂閱的元數(shù)據(jù)發(fā)生變更時,系統(tǒng)將自動通知用戶,用戶可根據(jù)指引進一步在系統(tǒng)中查詢到變更的具體內(nèi)容及相關(guān)的影響分析。元數(shù)據(jù)管理平臺提供元數(shù)據(jù)監(jiān)控功能,一旦監(jiān)控到元數(shù)據(jù)發(fā)生變更,就在第一時間通知用戶。
3、元數(shù)據(jù)應(yīng)用
(1)數(shù)據(jù)資產(chǎn)地圖
按數(shù)據(jù)域?qū)ζ髽I(yè)數(shù)據(jù)資源進行全面盤點和分類,并根據(jù)元數(shù)據(jù)字典自動生成企業(yè)數(shù)據(jù)資產(chǎn)的全景地圖。該地圖可以告訴你有哪些數(shù)據(jù),在哪里可以找到這些數(shù)據(jù),能用這些數(shù)據(jù)干什么。數(shù)據(jù)資產(chǎn)地圖支持以拓撲圖的形式可視化展示各類元數(shù)據(jù)和數(shù)據(jù)處理過程,通過不同層次的圖形展現(xiàn)粒度控制,滿足業(yè)務(wù)上不同應(yīng)用場景的圖形查詢和輔助分析需要:

圖:數(shù)據(jù)資產(chǎn)地圖示例
(2)元數(shù)據(jù)血緣分析
元數(shù)據(jù)血緣分析會告訴你數(shù)據(jù)來自哪里,經(jīng)過了哪些加工。其價值在于當(dāng)發(fā)現(xiàn)數(shù)據(jù)問題時可以通過數(shù)據(jù)的血緣關(guān)系追根溯源,快速定位到問題數(shù)據(jù)的來源和加工過程,減少數(shù)據(jù)問題排查分析的時間和難度。


圖:元數(shù)據(jù)血緣分析示例
(3)元數(shù)據(jù)影響分析
元數(shù)據(jù)影響分析會告訴你數(shù)據(jù)去了哪里,經(jīng)過了哪些加工。其價值在于當(dāng)發(fā)現(xiàn)數(shù)據(jù)問題時可以通過數(shù)據(jù)的關(guān)聯(lián)關(guān)系向下追蹤,快速找到有哪些應(yīng)用或數(shù)據(jù)庫使用了這個數(shù)據(jù),從而最大限度地減小數(shù)據(jù)問題帶來的影響。這個功能常用于數(shù)據(jù)源的元數(shù)據(jù)變更對下游ETL、ODS、DW等應(yīng)用的影響分析。
血緣分析是向上追溯,影響分析是向下追蹤,這是這兩個功能的區(qū)別。
(4)元數(shù)據(jù)冷熱度分析
元數(shù)據(jù)冷熱度分析會告訴你哪些數(shù)據(jù)是企業(yè)常用數(shù)據(jù),哪些數(shù)據(jù)屬于僵死數(shù)據(jù)。其價值在于讓數(shù)據(jù)活躍程度可視化,讓企業(yè)中的業(yè)務(wù)人員、管理人員都能夠清晰地看到數(shù)據(jù)的活躍程度,以便他們更好地駕馭數(shù)據(jù),處置或激活僵死數(shù)據(jù),從而為數(shù)據(jù)的自助式分析提供支撐。
(5)元數(shù)據(jù)關(guān)聯(lián)度分析
元數(shù)據(jù)關(guān)聯(lián)度分析會告訴你數(shù)據(jù)與其他數(shù)據(jù)的關(guān)系,以及它們的關(guān)系是怎樣建立的。關(guān)聯(lián)度分析是從某一實體關(guān)聯(lián)的其他實體及其參與的處理過程兩個角度來查看具體數(shù)據(jù)的使用情況,形成一張實體和所參與處理過程的網(wǎng)絡(luò),如表與ETL程序、表與分析應(yīng)用、表與其他表的關(guān)聯(lián)情況等,從而進一步了解該實體的重要程度。
4、元數(shù)據(jù)接口
建立元數(shù)據(jù)查詢、訪問的統(tǒng)一接口規(guī)范,以將企業(yè)核心元數(shù)據(jù)完整、準確地提取到元數(shù)據(jù)倉庫中進行集中管理和統(tǒng)一共享。
元數(shù)據(jù)接口規(guī)范主要包括接口的編碼方式、接口響應(yīng)、接口協(xié)議、接口安全、連接方式、技術(shù)實現(xiàn)、調(diào)用方式、報文格式等方面的內(nèi)容。
接口編碼方式:接口編碼方式必須在接口的頭信息中注明,常用的接口編碼方式有UTF-8、GBK、GB2312、ISO-8859-1。

接口響應(yīng)格式:元數(shù)據(jù)接口常用的報文格式,XML或JSON

接口協(xié)議:REST/SOAP協(xié)議

連接方式:POST

接口安全:Token身份認證

接口地址:http://url/service?[query]



作者:石秀峰


歡迎關(guān)注微信公眾號 :大數(shù)據(jù)階梯之路