業務場景

通過對中國移動各省公司既往在大數據平臺領域的已有解決方案、應用場景、關鍵技術和實際效果進行調研,發現隨著業務不斷發展,數據采集、留存、匯集技術不斷完善,各業務系統及大數據平臺中數據量快速增長,應用復雜度的增大,以及應用需求日益增長,原有數據庫技術、大數據平臺及串行計算等,已不能很好的滿足數據處理與管理各方面的使用需求。如在大數據處理的功能和性能優化方面,進行相關專題的技術研究,尤其是執行效率、資源利用率和構建融合式分布數據庫這幾個方面進行深入設計和研究,可以解決集團以及各省公司面臨的痛點場景。

解決方案

移動數據實時處理

移動數據實時處理,通過設計研發KafkaCDC工具,提升數據從傳統業務庫向分析庫遷移過程的實時能力,由傳統的離線、批量、T+1方式轉化為在線、實時、T+0的處理,同時優化實時處理的效率,提供線性擴展的能力。

方案架構

多維實時查詢

MDAM多維實時查詢是一種可以高效訪問數據的創新方法,避免了不必要的全量數據掃描,高效地支持分析報表類查詢場景。在處理缺失前導列、部分主鍵查詢條件為IN列表、查詢主鍵列為范圍的場景中可以跳過大量的不符合條件的行,從而提高性能。

分布式事務

分布式事務管理器(DTM)解決了大數據平臺中的分布式事務問題,易鯨捷分布式事務支持兩階段提交,支持WAL日志和恢復技術,支持MVCC多版本并發控制,支持混合樂觀鎖、悲觀鎖,提供ACID事務強一致性保障,同時整體扁平化的結構設計可以保證事務處理能力的擴展性。

冷熱數據分離

通過判斷數據在一段時間內被訪問的頻率,進而判定該數據的冷熱屬性,系統會從底層存儲(通常是HDFS)中獲取元數據信息,并通過數據讀寫訪問信息分析獲取數據熱度情況。如果在這段時間中,某個數據文件被訪問的頻率超過了某個閾值,系統會自動將該數據文件轉移到內存或者固態硬盤上。同樣,如果這段時間之內,數據文件被訪問的次數少于某閾值,就會被自動轉移到機械硬盤或者歸檔,從而有效提高存儲的資源利用率。

云數據庫共享技術

云數據庫共享技術的核心關鍵就是合理有效的在分布式數據庫集群上根據不同租戶所需劃分匹配的配額資源,且在資源的使用過程中確保租戶資源之間的隔離性,讓多個租戶靈活且安全的共享使用一套分布式數據庫集群資源。

多租戶技術允許多個租戶(或用戶)在一個集群上運行他們自己的應用并且管理他們自己的資源,實現租戶之間相互隔離,并為資源提供均衡分布和靈活的擴展性。

構建融合式分布數據庫

融合式分布數據庫可將所有數據存儲在統一平臺,免去數據庫復制、落地、轉換、加載到數據倉庫的復雜流程,極大的降低了數據存儲成本。滿足所有數據模型的需求,提升效率可T+0處理所有業務需要(事務、運營和分析),以及未來新型的業務服務需要。

EsgynDB的價值

有效支撐中國移動“大連接”戰略,落實IT領域改革部署,建立“架構先進、運營高效、內外兼顧”的IT核心體系,為中國移動IT系統的發展提供可用、可行、可靠的業務支撐能力,為中國移動IT系統和產品選型提供良好的參考標桿。

架構先進:融合架構體系,一套數據平臺同時支撐OLTP和OLAP業務,極大減少當前企業面臨的混搭架構中大量數據的移動和復制,降低因此產生的延遲、故障和運營成本,同時還能滿足結構化、半結構化、非結構化數據的處理

內外兼顧:數據集中處理,突破傳統數據庫技術單一性的瓶頸,所有數據統一存儲在一套庫中集中管理,技術人員通過掌握并使用一套數據庫技術就能解決所有數據應用問題,從而簡化了技術流程、降低了技術門檻和減少了使用和維護成本。

運營高效:實時數據處理,滿足所有數據模型的需求,提升效率可T+0處理事務、運營和分析等所有業務需要,以及未來新型的業務服務需要。