一、什么是數(shù)據(jù)質量管理
數(shù)據(jù)質量管理(Data Quality Management),是指對數(shù)據(jù)從計劃、獲取、存儲、共享、維護、應用、消亡生命周期的每個階段里可能引發(fā)的各類數(shù)據(jù)質量問題,進行識別、度量、監(jiān)控、預警等一系列管理活動,并通過改善和提高組織的管理水平使得數(shù)據(jù)質量獲得進一步提高。數(shù)據(jù)質量管理的目標是通過數(shù)據(jù)分析、數(shù)據(jù)評估、數(shù)據(jù)清洗、數(shù)據(jù)監(jiān)控、錯誤預警等內容,解決數(shù)據(jù)質量問題,使數(shù)據(jù)的質量得以改善,使其滿足數(shù)據(jù)需求方對數(shù)據(jù)質量的規(guī)則要求。
二、為什么企業(yè)需要數(shù)據(jù)質量管理
企業(yè)開始意識到數(shù)據(jù)質量管理的重要性。推動數(shù)據(jù)質量需求的共同點有:將新數(shù)據(jù)源,尤其是非結構化數(shù)據(jù)與現(xiàn)有系統(tǒng)集成;利用所有可用的企業(yè)數(shù)據(jù)所需的財務投資和競爭壓力:以及從數(shù)據(jù)所在的孤島中提取數(shù)據(jù)的難度等。哈佛商學院發(fā)布一項研究顯示,47% 的新創(chuàng)建數(shù)據(jù)記錄至少包含一個嚴重錯誤。麻省理工學院斯隆進行的一項驚人研究指出,不良數(shù)據(jù)的處理成本可能高達總收入的 15-25%,且是長期的無用成本損耗。一個可靠的數(shù)據(jù)質量管理計劃將確保數(shù)據(jù)的高度完整性,并且任何需要它的人都可以以安全和受監(jiān)管的方式隨時獲得數(shù)據(jù)。
數(shù)據(jù)質量管理就是找到正確的組合,讓合適的人員按照正確的方法配備正確的工具。
三、數(shù)據(jù)質量評估標準
1、一致性
多源數(shù)據(jù)的數(shù)據(jù)模型不一致,例如:命名不一致、數(shù)據(jù)結構不一致、約束規(guī)則不一致。數(shù)據(jù)實體不一致,例如:數(shù)據(jù)編碼不一致、命名及含義不一致、分類層次不一致、生命周期不一致……。相同的數(shù)據(jù)有多個副本的情況下的數(shù)據(jù)不一致、數(shù)據(jù)內容沖突的問題。
2、準確性
準確性也叫可靠性,是用于分析和識別哪些是不準確的或無效的數(shù)據(jù),不可靠的數(shù)據(jù)可能會導致嚴重的問題,會造成有缺陷的方法和糟糕的決策。
3、唯一性
用于識別和度量重復數(shù)據(jù)、冗余數(shù)據(jù)。重復數(shù)據(jù)是導致業(yè)務無法協(xié)同、流程無法追溯的重要因素,也是
數(shù)據(jù)治理需要解決的最基本的數(shù)據(jù)問題。
4、完整性
數(shù)據(jù)完整性問題包括:模型設計不完整,例如:唯一性約束不完整、參照不完整;數(shù)據(jù)條目不完整,例如:數(shù)據(jù)記錄丟失或不可用;數(shù)據(jù)屬性不完整,例如:數(shù)據(jù)屬性空值。不完整的數(shù)據(jù)所能借鑒的價值就會大大降低,也是數(shù)據(jù)質量問題最為基礎和常見的一類問題。
5、及時性
數(shù)據(jù)的及時性(In-time)是指能否在需要的時候獲到數(shù)據(jù),數(shù)據(jù)的及時性與企業(yè)的數(shù)據(jù)處理速度及效率有直接的關系,是影響業(yè)務處理和管理效率的關鍵指標。
6、關聯(lián)性
數(shù)據(jù)關聯(lián)性問題是指存在數(shù)據(jù)關聯(lián)的數(shù)據(jù)關系缺失或錯誤,例如:函數(shù)關系、相關系數(shù)、主外鍵關系、索引關系等。存在數(shù)據(jù)關聯(lián)性問題,會直接影響數(shù)據(jù)分析的結果,進而影響管理決策。
7、真實性
數(shù)據(jù)必須真實準確的反映客觀的實體存在或真實的業(yè)務,真實可靠的原始統(tǒng)計數(shù)據(jù)是企業(yè)統(tǒng)計工作的靈魂,是一切管理工作的基礎,是經(jīng)營者進行正確經(jīng)營決策必不可少的第一手資料。
四、數(shù)據(jù)質量管理建設方案
1、建立質量管控流程和規(guī)范
明確質量管控的角色、職責,建立可執(zhí)行的工作流程、可量化的工作評估等關于數(shù)據(jù)質量管控辦法,同時也應具備績效考核、沖突解決與管控方式等。
2、執(zhí)行管理工作
1)數(shù)據(jù)剖析
進行已知數(shù)據(jù)問題的評估,評估的范圍控制在本輪管控的目標范圍內。通過對數(shù)據(jù)進行剖析,發(fā)現(xiàn)數(shù)據(jù)問題,具體規(guī)則又可通過標準或業(yè)務調研進行提取。
2)設計數(shù)據(jù)質量控制操作程序
獲得已知數(shù)據(jù)問題后,就應設計數(shù)據(jù)質量控制操作程序。主要包括制定質量問題評估方式和整改方式、制定質量報告內容及對象以及制定檢查和監(jiān)控的頻率及方式。
3)定義數(shù)據(jù)質量需求
根據(jù)剖析的質檢規(guī)則和控制操作程序,對數(shù)據(jù)質量需求進行定義。
4)確定數(shù)據(jù)質量水平
數(shù)據(jù)質量需求定義完畢之后,我們就需要確定在此需求下,目前數(shù)據(jù)質量的水平處于什么位置。明確反應質量水平的并最直觀的就是錯誤數(shù)據(jù)的詳情情況。
5)管理數(shù)據(jù)質量問題
問題找到后,針對根據(jù)不同的質量問題,進行不同的質量整改方案。比如:源頭修改、補錄、技術修復以及遺留問題管控等。
3、檢查數(shù)據(jù)質量
首先確定整改質量,對處理后的數(shù)據(jù)進行再次質檢,出具數(shù)據(jù)質量的報告;然后,對比處理前后效果,總結改進措施;最后,檢查數(shù)據(jù)質量是否合格,分析不合格原因并下一輪管控中進行技術上或者操作程序上的改進。
4、監(jiān)控數(shù)據(jù)質量,控制管理程序和績效
根據(jù)既定的操作程序,對質量管控過程中各個環(huán)節(jié)參與者進行績效評估。還可以根據(jù)不同時期的重點制定不同的評分標準,有針對性的進行評價和管控,如整改初期數(shù)據(jù)缺失嚴重,則可對完整性規(guī)則權重調大,以期更快看到成效或者達到更好的效果。