數(shù)據(jù)治理是將分散、無(wú)序、混亂的原始數(shù)據(jù)加工處理為相對(duì)集中、有序、有使用價(jià)值的標(biāo)準(zhǔn)數(shù)據(jù)的重要過(guò)程,是形成數(shù)據(jù)資產(chǎn)、實(shí)現(xiàn)數(shù)據(jù)價(jià)值的基礎(chǔ)工作和關(guān)鍵步驟。數(shù)據(jù)治理包括數(shù)據(jù)清洗、數(shù)據(jù)脫敏脫密、數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)交換和數(shù)據(jù)集成。
1.數(shù)據(jù)清洗
數(shù)據(jù)清洗是指對(duì)原始采集數(shù)據(jù)進(jìn)行包括剔除重復(fù)數(shù)據(jù)、補(bǔ)充不完整數(shù)據(jù)、修正錯(cuò)誤數(shù)據(jù)等處理,形成有規(guī)則、結(jié)構(gòu)化的數(shù)據(jù),提高可用性和分析價(jià)值。
2.數(shù)據(jù)脫敏脫密
一般應(yīng)先對(duì)敏感數(shù)據(jù)進(jìn)行識(shí)別,再通過(guò)脫敏算法,進(jìn)行標(biāo)準(zhǔn)化建模和自動(dòng)化處理,以實(shí)現(xiàn)安全、便捷、標(biāo)準(zhǔn)地脫敏,脫敏后的數(shù)據(jù)應(yīng)不涉及國(guó)家安全、個(gè)人隱私等內(nèi)容。
3.數(shù)據(jù)標(biāo)準(zhǔn)化
數(shù)據(jù)標(biāo)準(zhǔn)化包括數(shù)據(jù)標(biāo)簽、摘要、索引等,以形成可供后續(xù)數(shù)據(jù)分析和挖掘的標(biāo)準(zhǔn)數(shù)據(jù),是提升數(shù)據(jù)資產(chǎn)價(jià)值的基礎(chǔ)性工作。通過(guò)數(shù)據(jù)標(biāo)準(zhǔn)化可以提高跨系統(tǒng)數(shù)據(jù)在數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)維度等方面的一致程度,降低整合和集成難度,形成滿足一致性、可靠性、兼容性等標(biāo)準(zhǔn)的高質(zhì)量數(shù)據(jù)。
4.數(shù)據(jù)交換
數(shù)據(jù)交換是指將數(shù)據(jù)從原有模式按照一定標(biāo)準(zhǔn)轉(zhuǎn)換為目標(biāo)模式,轉(zhuǎn)換過(guò)程中應(yīng)準(zhǔn)確并一致性地反映原數(shù)據(jù),以實(shí)現(xiàn)不同系統(tǒng)和平臺(tái)之間的數(shù)據(jù)對(duì)接、共享和交換。
5.數(shù)據(jù)集成
數(shù)據(jù)集成是指將異構(gòu)、分布、自治數(shù)據(jù)進(jìn)行集成和可視化處理,以解決不同數(shù)據(jù)源不匹配和訪問(wèn)效率低等問(wèn)題。