世界正處于大數(shù)據(jù)時(shí)代。每次有人下載應(yīng)用程序、發(fā)送電子郵件或文本、發(fā)送任何數(shù)量看似微不足道的事情時(shí),都會(huì)創(chuàng)建數(shù)據(jù),而數(shù)百萬(wàn)人的這些交互的復(fù)合數(shù)量造成了數(shù)據(jù)的爆炸式增長(zhǎng)。每天大約產(chǎn)生2.5 萬(wàn)億字節(jié)的數(shù)據(jù)。企業(yè)開(kāi)始意識(shí)到數(shù)據(jù)質(zhì)量管理的重要性。數(shù)據(jù)驅(qū)動(dòng)型企業(yè)的一個(gè)共同特征是,他們都制定了數(shù)據(jù)質(zhì)量管理計(jì)劃,以確保使用最優(yōu)質(zhì)的數(shù)據(jù)源。麻省理工學(xué)院斯隆進(jìn)行的一項(xiàng)驚人研究指出,不良數(shù)據(jù)的處理成本可能高達(dá)總收入的 15-25%,且是長(zhǎng)期的無(wú)用成本損耗。哈佛商學(xué)院發(fā)布一項(xiàng)研究顯示,47% 的新創(chuàng)建數(shù)據(jù)記錄至少包含一個(gè)嚴(yán)重錯(cuò)誤。推動(dòng)數(shù)據(jù)質(zhì)量需求的共同點(diǎn)有:將新數(shù)據(jù)源,尤其是非結(jié)構(gòu)化數(shù)據(jù)與現(xiàn)有系統(tǒng)集成;利用所有可用的企業(yè)數(shù)據(jù)所需的財(cái)務(wù)投資和競(jìng)爭(zhēng)壓力以及從數(shù)據(jù)所在的孤島中提取數(shù)據(jù)的難度等。一個(gè)可靠的數(shù)據(jù)質(zhì)量管理計(jì)劃將確保數(shù)據(jù)的高度完整性,并且任何需要它的人都可以以安全和受監(jiān)管的方式隨時(shí)獲得數(shù)據(jù)。數(shù)據(jù)質(zhì)量管理就是找到正確的組合,讓合適的人員按照正確的方法配備正確的工具。本文將介紹到底什么是數(shù)據(jù)質(zhì)量管理。
數(shù)據(jù)質(zhì)量管理的定義
數(shù)據(jù)質(zhì)量管理是指為了滿足信息利用的需要,對(duì)信息系統(tǒng)的各個(gè)信息采集點(diǎn)進(jìn)行規(guī)范,包括建立模式化的原始信息的校驗(yàn)、操作規(guī)程、錯(cuò)誤信息的矯正、反饋等一系列過(guò)程。也可以說(shuō)是對(duì)數(shù)據(jù)從采集、存儲(chǔ)、處理、傳輸、交互、銷(xiāo)毀生命周期的每個(gè)階段里可能引發(fā)的各類(lèi)數(shù)據(jù)質(zhì)量問(wèn)題,進(jìn)行監(jiān)控、度量、識(shí)別、預(yù)警等一系列管理活動(dòng)。通過(guò)改善和提高組織的管理水平使得數(shù)據(jù)質(zhì)量獲得進(jìn)一步提高。數(shù)據(jù)質(zhì)量管理是循環(huán)管理過(guò)程,其終極目標(biāo)是通過(guò)可靠的數(shù)據(jù)提升數(shù)據(jù)在使用中的價(jià)值,并最終為企業(yè)贏得經(jīng)濟(jì)效益。
數(shù)據(jù)質(zhì)量評(píng)估
唯一性:用于度量哪些數(shù)據(jù)是重復(fù)數(shù)據(jù)或者數(shù)據(jù)的哪些屬性是重復(fù)的。
規(guī)范性:用于度量哪些數(shù)據(jù)未按統(tǒng)一格式存儲(chǔ)。
完整性:用于度量哪些數(shù)據(jù)丟失了或者哪些數(shù)據(jù)不可用。
準(zhǔn)確性:用于度量哪些數(shù)據(jù)和信息是不正確的,或者數(shù)據(jù)是超期的。
一致性:用于度量哪些數(shù)據(jù)的值在信息含義上是沖突的。
關(guān)聯(lián)性:用于度量哪些關(guān)聯(lián)的數(shù)據(jù)缺失或者未建立索引。
影響數(shù)據(jù)質(zhì)量因素

技術(shù)因素:由于具體數(shù)據(jù)處理的各技術(shù)環(huán)節(jié)的異常造成的數(shù)據(jù)質(zhì)量問(wèn)題。數(shù)據(jù)質(zhì)量問(wèn)題的產(chǎn)生環(huán)節(jié)主要包括數(shù)據(jù)獲取、數(shù)據(jù)創(chuàng)建、數(shù)據(jù)裝載、數(shù)據(jù)傳遞、數(shù)據(jù)使用、數(shù)據(jù)維護(hù)等方面的內(nèi)容。
管理因素:由于人員素質(zhì)及管理機(jī)制方面的原因造成的數(shù)據(jù)質(zhì)量問(wèn)題。如人員培訓(xùn)、人員管理、培訓(xùn)或者獎(jiǎng)懲措施不當(dāng)導(dǎo)致的管理缺失或者管理缺陷。
信息因素:產(chǎn)生這部分?jǐn)?shù)據(jù)質(zhì)量問(wèn)題的原因主要有:元數(shù)據(jù)描述及理解錯(cuò)誤、數(shù)據(jù)度量的各種性質(zhì)得不到保證和變化頻度不恰當(dāng)?shù)取?br />
流程因素:由于系統(tǒng)作業(yè)流程和人工操作流程設(shè)置不當(dāng)造成的數(shù)據(jù)質(zhì)量問(wèn)題,主要來(lái)源于系統(tǒng)數(shù)據(jù)的創(chuàng)建流程、傳遞流程、裝載流程、使用流程、維護(hù)流程和稽核流程等各環(huán)節(jié)。
數(shù)據(jù)質(zhì)量管理方法
企業(yè)組織應(yīng)該如何解決數(shù)據(jù)質(zhì)量問(wèn)題? 可以映射到六西格瑪管理方法,如下圖
億信華辰深耕大數(shù)據(jù)領(lǐng)域15年,憑借深厚的技術(shù)底蘊(yùn)與開(kāi)發(fā)經(jīng)驗(yàn),研發(fā)出了睿治智能數(shù)據(jù)治理平臺(tái)。以下是該平臺(tái)可以支持?jǐn)?shù)據(jù)驅(qū)動(dòng)型企業(yè)的方式:
管理數(shù)據(jù)生命周期: 數(shù)據(jù)管理是定義和維護(hù)數(shù)據(jù)模型、記錄數(shù)據(jù)、清理數(shù)據(jù)以及定義其規(guī)則和策略的過(guò)程。它支持實(shí)施定義明確的數(shù)據(jù)治理流程,涵蓋多項(xiàng)活動(dòng),包括監(jiān)控、協(xié)調(diào)、優(yōu)化、重復(fù)數(shù)據(jù)刪除、清理和聚合,以幫助向應(yīng)用程序和最終用戶提供高質(zhì)量的數(shù)據(jù)。
分析數(shù)據(jù)環(huán)境: 通過(guò)數(shù)據(jù)剖析,衡量整個(gè)企業(yè)中以各種形式存儲(chǔ)的數(shù)據(jù)的特征和狀況的,獲得對(duì)企業(yè)數(shù)據(jù)的重要控制權(quán)。
快速準(zhǔn)備和共享數(shù)據(jù):睿治智能數(shù)據(jù)治理平臺(tái)支持多種異構(gòu)數(shù)據(jù)源接入,獲得大量數(shù)據(jù)集,然后清理、標(biāo)準(zhǔn)化、轉(zhuǎn)換或豐富數(shù)據(jù)。
安全共享質(zhì)量數(shù)據(jù):在不將機(jī)密信息暴露給未經(jīng)授權(quán)的人員的前提下,支持使用本地或基于云的應(yīng)用程序有選擇地共享生產(chǎn)質(zhì)量數(shù)據(jù)。
