中國石油數據治理建設項目
基于ReiKing數據服務和治理平臺實現如下功能:

1、數據架構管理功能要求
(1)數據資源目錄管理功能
數據資源目錄提供集團公司全局數據目錄的統一管理,通過建立數據資源多級分類,定義和識別所屬領域的數據資源內容信息,實現各業務主題域的資源導圖。支持包含但不限于以下:
●分類層級管理(必選功能):支持按集團整體角度劃分數據資源分類,對資產分類建立資源分級,形成一套集團級資源結構樹。資源分類管理應包含資源層級設置、資源目錄結構維護、目錄快速定位、資源目錄批量導入導出和目錄分發等功能;
●標簽管理(必選功能):用戶可以自定義多維度標簽管理,并建立維度標簽與資產分類的映射關系,通過查看維度標簽的方式展現不同維度下的數據資源內容;
●個性主題導航(非必選功能):支持按業務要求,以最貼近用戶使用習慣的方式搜索、展示符合數據訪問權限范圍的數據資源信息。支持根據用戶角色的不同,按圖形化、多視角方式展現主題全貌。提供多維標簽內容過濾、目錄標題名稱與描述的中英文切換。支持用戶固化查詢條件等方式形成個性化主題數據資源目錄。資源目錄可導航直達數據模型、數據質量、數據標準、等各類信息資源,支持鉆取查看不同層次細節信息;
●實體匹配識別(必選功能):支持將存在于大量的業務流程和統建項目系統中零散的、不同層級結構的信息,利用信息集中整理、數據匹配輔助、名稱合并等手段,識別出數據實體,并將數據實體與數據資源目錄關聯。
(2)數據模型管理功能
數據模型是企業中重要的數據資源,是數據治理中數據架構的核心,內容包括邏輯模型和物理模型。邏輯模型涉及所有業務概念命名和數據規則的統一定義。物理模型是集團公司統建信息系統的物理模型快照,并在平臺形成統一數據導圖。通過邏輯模型與物理模型之間的轉換和映射關系,方便業務人員與技術人員的應用。支持包含但不限于以下:
●邏輯模型管理(必選功能):實現針對數據實體的邏輯模型的維護管理功能,包括邏輯模型的創建、變更、查詢,以及邏輯模型的版本管理、批量導出和批量導入等;
●物理模型采集(必選功能):實現針對數據實體的各系統物理模型的收集,物理模型收集支持采集與報送兩方式,采集是利用獨立的元數據采集工具,獲取集團各項目系統中的物理模型。報送是用戶通過PDM模型或Excle模板的方式提交物理模型,通過加載、映射、分類形成統一的物理模型映射庫。支持從物理模型反向生成指定類型的數據庫DDL腳本;
●關系映射(必選功能):基于統一的數據邏輯模型,維護各系統物理模型與邏輯模型的映射關系。支持通過Web界面拖拽的方式建立模型屬性的映射關系。支持從數據庫外鍵索引、ETL工具(如:DataStage、PowerCenter、kettle)、ESB工具中獲得流轉關系;
●監控與分析(必選功能):當有數據模型發生變化時,應建立預警機制,分析影響的數據模型和相關系統,形成影響分析評估報告,并由數據歸口部門發布,公示變更內容,對于發布的數據模型需要記錄版本信息。
●動態模型配置(非必選功能):支持邏輯模型、物理模型以及模型字段的展示,可以實現動態配置和動態擴展,可最大限度的滿足模型的詳細內容描述和關聯內容的展示。
(3)數據標準管理
數據標準管理的數據對象包括業務規范、管理規范、技術規范和字典詞根庫標準、命名規范、維度值域等,需要統一數據規則和定義說明;數據標準需涵蓋國家標準、行業標準、企業標準、以及各信息系統存在的事實標準,并借助技術工具和人工甄別將這些標準的內容轉化為系統可識別的數據標準化校驗規則。
●標準模型管理(必選功能):通過標準模型定義實現各數據屬性的標準規范管理,包括各數據屬性的業務規范、管理規范以及技術規范等相應內容的維護管理。提供數據標準的引用關系維護和關聯顯示。支持標準與數據模型的關聯定義與展示。支持標準附件文檔上傳,并關聯到具體的標準中;
●數據屬性值域管理(必選功能):實現各數據屬性的值域維護管理,支持從技術規范中選擇值域字段,按模板批量上傳方式建立和維護值域數據信息。支持定時從數據源中采集數據實體的值域數據。通過對值域的維護定義屬性的值域內容,規范數據的屬性值;
●版本管理(非必選功能):實現標準規范的版本管理,便于記錄標準規范的版本變更歷史和變更信息,同時存儲不同的標準規范版本;
●變更管理(必選功能):實現標準規范內容的維護流程管理,包括標準查詢、標準變更申請、審批、發布等流程;
●標準執行(非必選功能):支持將數據標準落地為指定的數據質量規則,定期對各信息系統數據進行質量稽核,并記錄數據標準在各信息系統中的貫標情況。
●落標管理(非必選功能):支持字典詞根庫標準、命名規范標準、數據標準管理和落地,以及標準落地的總體和詳細報告,例如可以按業務系統、主題、標簽等維度分類展示
(4)數據源管理
梳理數據資源目錄中各數據屬性的數據分布情況,認證可信的數據源頭,明確屬性的數據流向。
●可信源認證(必選功能):實現對可信數據源的注冊、變更以及發布功能。提供可信源認證流程維護,支持多方主管部門的聯合會簽審批。支持可信數據源的查詢,顯示數據實體屬性字段的可信數據源頭。
●數據分布管理(必選功能):實現對各系統中屬性分布情況的展示,提供屬性分布的內容維護和變更功能;
●數據流向管理(必選功能):實現對數據屬性在信息系統間流向的維護和變更,自動梳理數據間流轉,判斷多頭錄入,并提供圖形化展現。
2、數據管控功能要求
數據管控是數據治理體系中的重要內容,系統通過對數據質量評估的規則管理,開展數據質量稽核,對數據質量問題的管理和監控,實現對集團各生產運營、經營管理、辦公管理和決策支撐類各項目數據質量的管控。
(1)規則庫管理功能(必選功能)
規則庫管理應實現對數據質量規則管理、質量評估模型管理和質量管控等級的內容管理,形成數據標準化清洗規則和數據校驗規則,規則庫是由指定的業務人員根據數據標準在Web頁面中進行統一管理與維護,為后續數據質量驗證和清洗提供依據。
1)規則操作要求
●用戶可通過Web頁面對規則進行定義和查詢;支持規則庫的批量導入/導出的功能,可將現有的大量規則通過Excel模板導入規則庫,無需逐條重建;
●為了降低規則應用的復雜度,規則庫提供按分類/分組管理,并抽象易于識別的規則模板。業務人員勾選好規則模板、定制化規則參數、完成與數據模型字段關聯、規則可用性測試后,系統能自動生成數據質量校驗腳本和稽核策略。
2)規則內容要求
●校驗規則:支持對單表、多表、單行或多行數據質量檢查規則的配置。可針對數據完整性、數據一致性、數據關聯性、數據實效性、數據準確性、業務平衡性等規范性規則設置。支持數據完整率、空值率、數據重復率等數據異常波動率規則設置。
●標準化規則:支持通用值轉換規則,支持空值轉換、特殊字符轉換、大小寫轉換等;支持針對不同的數據類型(日期、數值、百分比、貨幣)進行格式標準化規則;支持字段轉換規則,如:字段合并、字段拆分等;支持字符串替換規則,如:正則替換、字符串拆分取值、位置取值、刪除多余空格等;引用表替換規則,如:將內容替換為引用表值,刪除具有引用表的內容等。
●排重規則:支持單字段或多字段的精確匹配規則定義;支持字段值去掉語義分隔符(*-+、/等)后進行相似度匹配;支持選擇匹配算法、優化閾值設置和去除高頻詞設置等模糊匹配規則的定義。
●脫敏規則:按安全要求定義脫敏規則,實現對數據的脫敏,如:加密、遮擋、混淆、值替換等脫敏規則定義。
3)規則集成要求
●支持將數據標準、數據模型轉換為數據校驗規則,人工修正后形成數據質量校驗規則庫。
●支持外部系統利用API調用和WebService接口方式維護規則庫功能。
●支持對規則內容的變更訂閱功能。
(2)數據質量稽核功能
數據質量稽核,基于規則庫生成質量評估模型實例,調用數據質量評估引擎服務進行數據質量評估,對數據進行標準化和數據質量檢查,產生數據質量測量結果并根據考評指標進行打分。
1) 數據質量校驗(必選功能)
數據校驗功能實現對數據自動規則校驗功能,包括但不限于以下功能點:
●依據規則庫的校驗規則,針對不同數據來源的歷史數據進行增量、全量、抽樣數據進行質量校驗功能;
●支持實時、異步方式的數據校驗,數據自動規則校驗可發布成服務供同步/異步調用;
●可以定義校驗后的輸出結果,包含輸入字段、詳細錯誤描述信息等,支持校驗結果的持久化保存或通過服務方式進行發布;
●當一個時間窗口未完成數據質量檢查時,不影響下次檢查任務的正常執行。對規則庫進行正常的規則維護如增刪改時,不影響數據校驗功能的正常運行;
●內置豐富的常用的數據質量校驗算法,支持客戶快速應用和擴展,滿足中石油針對各類統建項目中數據不同校驗規則的客戶化要求。
2)數據標準化(必選功能)
數據標準化實現數據自動規則轉換功能,包括但不限于以下功能點:
●依據規則庫的標準化規則,能夠參照數據轉換規則庫所指定的格式和值,對不完整數據、不合規數據、錯誤數據等異常數據進行糾正后再進行質量校驗;
●支持通用數據轉換功能,可針對不同的數據類型(日期、數值、文本、枚舉)等進行自動的標準化,同時也支持對復雜標準化規則的在線擴展功能。
●支持外部系統通過服務調用的方式實現單獨的數據標準化應用。
3)數據排重(必選功能)
產品提供高效的數據排重引擎,實現對數據排重檢查功能,包括但不限于以下功能點:
●依據規則庫的排重規則,支持單個表中待排重數據的批量排重功能,提供預置的算法、規則模型,對批次內數據和全庫數據進行精確與模糊識別;
●支持在不同數據源的多張庫表之間進行精確與模糊識別;
●支持按分類方式對數據進行分組排重,重復數據指在同一分組下有效;
●模糊識別的結果數據應有相似度分值,以區別不同記錄的相似程度。可根據不同字段設置靈活的打分機制,可以設置完全匹配和部分匹配的閥值;
●排重結果可按相似度排序、排重結果可以落地可導出。能夠將數據排重檢查發布成Web服務,外部系統可以通過服務調用的方式獲得是否數據重復。
4)數據脫敏(必選功能)
對數據中的敏感數據進行特殊化處理,保證數據的安全共享,包括但不限于以下功能點:
●依據規則庫的脫敏規則,對待稽核數據進行數據脫敏,脫敏輸出結果同數據標準化和數據質量檢查結果一同持久化落地。
●提供單獨的數據脫敏工具,實現對數據內容的脫敏,例如,全字段、文字部分內容(數字、特殊詞匯等)、非結構化文件等。
5)數據剖析(必選功能)
提供全面靈活的數據剖析與探查能力,針對不同數據源分析數據的格式規則和數據分布情況,通過對數據質量的多維度分析,能幫助使用者快速而直觀的發現數據規律和問題。包括但不限于以下功能點:
●基于統計方法,提供數據結構、內容、規則和關系概況,通過返回一組有關數據的標準特征,這些特征包括數據類型、字段長度、取值分析,格式模式,分布分析,空值統計,重復性統計、跨列和跨文件的數據關系等標準指標。
●可針對全部數據進行剖析,也可指定采樣范圍對部分數據進行剖析;
●支持針對數據剖析的結果進行下鉆,獲得更加精細的剖析結果,剖析可自定義過濾條件,方便查看不同組合的剖析結果,結果可導出文件、WebService等;
●可對一段時間內多次分析的結果進行變化趨勢的分析與展現。
6)作業管理(必選功能)
數據質量產品提供作業管理功能,實現作業配置管理和作業隊列管理,包括但不限于以下功能點:
●支持復雜作業調度的策略設置與導入導出,包括時間,串并行,作業關系和調度異常處理等。能夠修改現有作業的數據庫連接、組合不同的數據規則轉換、校驗、排重、脫敏等功能形成數據處理作業,部署到作業管理中;
●支持多種方式的作業觸發,如時間周期、Web Service方式,命令行方式,API方式等;
●通過web頁面監控作業的運行狀態、日志、通過作業調度,分配資源,配置執行時間的監控。用戶可通過多種口徑(按創建時間、按作業類型、按運行時間等)查看上述監測結果詳細信息。提供對作業中每個步驟執行時間的監控,對每個任務處理數據情況的監測,對所有操作的日志記錄及查看功能;
(3)數據質量監控功能(必選功能)
實現數據質量監控,跟蹤質量評估測量結果、發現質量變化趨勢,及時對質量異常問題預警。
1)數據質量監控
●使用定時輪循機制,對不同數據對象的增量數據或指定范圍的數據進行自動的數據質量分析,并形成數據質量關鍵指標數據和監控報告;
●根據預定義的閾值建立預警功能,一旦檢測到數據質量異常情況,立刻進行報警觸發,自動通知到相關負責人,并實時監控后續情況;
●能夠提供基于各質量檢查維度的數據質量變化趨勢圖、計分卡和數據質量評測儀表盤。
3、數據服務功能要求
數據服務是數據治理平臺成果的輸出,提供全景化、動態化、圖形化的數據資源展示、定位與獲取功能,通過數據可視化手段幫助用戶直觀的了解數據。建立完整的數據治理評估服務,通過一系列評估指標,依據數據質量稽核結果,持續跟蹤質量改進情況,支持集團公司數據質量的提升。
(1)數據可視化
通過對企業資產的識別,將企業數據資源按層次劃分,形成企業的數據資源目錄。支持包含但不限于以下:
1)數據字典(必選功能)
●以數據資源目錄為結構導圖,提供包含數據標準、數據質量管理規則、可信數據源等信息的檢索、搜索與展示服務;
●可提供多種功能集成方式,如:SOAP/RESTful/ WebService等。
2)數據地圖(必選功能)
●提供數據資源在企業內的不同視角下系統維度、主題域維度、業務板塊維度的全景分布視圖,可隨業務需求進行切換。
3) 血緣分析(必選功能)
●提供數據在業務中流向、數據在系統間的流向以及數據的可信數據源信息,形成數據在企業內流向的地圖,針對用戶關注的實體、屬性進行血緣分析,統計上下游層數、關聯數,并可逐級展開。
(2)數據治理評估(必選功能)
通過按照不同需求建立相關評估指標,針對數據模型配置相關指標形成數據評估模型,并將評估模型分發到相應的物理模型中形成評估任務,最終匯總評估結果并以視圖的方式進行展示。
1)數據治理評估
●數據質量評估:支撐對數據質量的評估內容管理,構建數據屬性的質量評估模型,定義度量指標和質量管控等級。通過評估對象、評估系統和度量指標進行不同維度的組合,支持數據健康360視圖,可從標準化、質量、能力成熟度、冗余度等方面展示
●提供滿足不同業務視角的數據質量評估服務,生成數據質量明細報告和綜合報告;定期對問題系統進行評估,跟蹤質量改進情況,并形成數據質量跟蹤報告。數據架構設計評估:實現各信息系統通過調用評估服務,以規范的數據標準庫為基準對各系統的數據模型等架構設計內容進行評估。
2)問題跟蹤管理
●將業務部門工作與檢查發現、客戶反映、系統運維暴露的數據質量問題進行系統登記與維護,形成質量問題知識庫,將問題在線派單給相關責任部門或者個人,也可登記通過主動或手動數據質量校驗規則,發現的數據質量問題。
●基于知識庫管理系統或其他手段,支持用戶精確定位數據質量問題,包括異常位置、發生時間、影響范圍、問題的責任和利益相關方,實現數據問題全鏈分析。
●根據數據質量問題的類型、影響性與緊迫度等因素,定制數據質量問題整改流程及細化整改活動,流程內容包括制定整改方案,實施整改,檢驗整改結果等過程,整改方案通過在線審批流程完成后,方可進行實施整改
4、數據集成功能要求
數據集成提供消息注冊功能,實現對系統外的數據分發和采集,通過數據集成支持源系統、數據倉庫對應用整合的需求,實現定時自動的采集物理模型形成數據元模型。
(1)數據采集功能(必選功能)
1)數據探查
●支持從Oracle/ SQL Server/ PostgreSQL/ MySQL/DB2 /BW/HANA/Hbase /NoSQL等主流數據庫中探查元數據信息。
●支持從Rational Data Architect,ErWin,PowerDesigner,Oracle Designer等數據建模工具中獲取元數據信息;
●支持XML進行元數據交換,支持對象級元數據的導入和導出。
●支持采集粒度設置,包括:字段、表、視圖等,針對各采集接口,均可拿到最細節的元數據;
2)數據整合
●整合數據探查任務形成的數據模型信息,通過智能識別和人工加工,將數據模型信息轉換為各業務系統的數據架構信息。
3)作業調度管理
●實時監控數據源探查任務;
●支持對任務的人工干預,例如,終止、重啟等;
●提供定時任務。
4)異常處理
●斷點續傳功能應在作業停止后再運行,應能從上次停止的位置開始繼續進行實時增量數據采集;
●自動恢復功能支持當作業發生異常中斷后,能自動重啟恢復,無需人工干預,且支持從異常點自動恢復處理后續數據;
●支持自定義重啟點,即用戶可自定義從某個位置或時間點開始重新采集增量數據;
●提供內置功能實現捕獲錯誤/異常數據進入任意指定的數據目標端的功能等
(2)數據分發功能(必選功能)
外部系統可通過信息系統注冊訂閱或查詢,數據治理平臺中內容。支持包含但不限于以下:
1)數據發布
●當如屬性值域、數據規則、數據模型等發生變化,提供推送的形式將變更內容發送到相對應業務系統中。
2)數據訪問接口
●支持接口編排采用在線可視化方式,通過拖拽組件進行接口的編排,同時支持請求模式(post/get)、多種請求類型(同步、異步)、多種返回類型(json、xml)、多種接口調用方式(SOAP/RESTful/WebService),且支持簽名認證
●支持接口的在線測試能力,在線測試返回接口執行結果、相關狀態信息
●提供接口訪問審批制流程,外系統通過線上申請訪問接口請求,經審批后開放相對應接口,保證數據訪問可控。
●提供對接口的調用測試、返回記錄條數、失效時間進行控制;支持提供黑白明白管理,禁止或者允許對應的ip地址進行服務訪問
3)信息系統注冊
●用戶線上注冊業務信息系統,只有注冊過的業務信息系統才可以申請訪問接口請求并成為數據發布目標端;
●對注冊業務信息系統設定允許訪問的數據范圍,例,數據實體、數據屬性字段等。
5、基礎平臺功能要求
(1)門戶(必選功能)
●提供消息管理功能,支持發布人工通知和系統消息自動發布,包括消息提醒功能,并可以外部對接F5系統。
●個性化定制功能,支持首頁及功能頁的多種內容框架劃分。支持數據治理門戶的多種主題風格配置。
●菜單管理功能,支持多級菜單配置與展示。支持自定義功能導航菜單的配置與展示。
(2)變更管理(必選功能)
●支持審批流程環節動態配置和擴展、審批人員可按角色、制定人員設置
●支持數據架構、數據規則、屬性值域的變更申請。
●支持待辦事宜、經辦事宜、已辦事宜的事宜管理功能。
●對業務表單建模,支持多維表單和表單校驗。
(3)監控管理(必選功能)
●提供貼源物理模型變化、屬性值域變化的變更監控功能
●提供數據發布的狀態監控,發布重試操作
●質量稽核引擎、相關中間件等的監控、分析、在線啟停、告警(消息通知/郵件/短信等)
(4)智能搜索(必選功能)
●提供數據架構信息索引、條件搜索和結果展現功能
●支持基于搜索結果增加同類詞推薦、關聯性推薦
(5)體系管理(必選功能)
●對用戶、組織機構和系統進行訪問和操作授權管理,支持到按鈕級授權
●支持多團隊接入管理,支持多用戶在同一團隊下模型開發、質量稽核和數據資源的管理,支持按照團隊進行數據庫、模型、字段的授權管理
●建立業務流程的模板,提供流程狀態監控功能
●支持結構化、半結構化、非結構化數據文件的管理功能
(6)系統管理(必選功能)
●支持多租戶,提供用戶、組織機構和權限的集中維護和管控
●支持集中管理數據治理平臺的配置文件內容
●記錄操作日志,錯誤日志,提供日志審計查詢
企業簡介
中國石油天然氣股份有限公司(簡稱“中國石油”或“中石油”)是中國油氣行業占主導地位的最大的油氣生產和銷售商,是國有企業,是中國銷售收入最大的公司之一,也是世界最大的石油公司之一。
項目背景
略





京公網安備11010802013978號